Archivace webu (nebo Internetu) je do jisté míry specializovanou oblastí dlouhodobé ochrany digitálních dat. Cílem je stáhnout (sklízet) obsah internetových stránek a to v různém rozsahu. Národní knihovny často sklízejí obsah celé národní domény (např. doména .cz) a dělají také tematické sklizně. Instituce se mohou zaměřovat na vlastní stránky, na stránky zabývající se konkrétní tématikou apod.
Nutným nástrojem ke sklízení je tzv. harvester (nebo crawler). Nejrozšířenější je Heritrix – https://webarchive.jira.com/wiki/display/Heritrix.
Dále jsou nutné nástroje na indexaci sklizeného obsahu, jako např. SOLR nebo Apache Lucene.
Pro zpřístupnění, které je v případě webového obsahu specifické, lze použít např. Wayback Machine – https://github.com/internetarchive/wayback nebo nově OpenWayback https://github.com/iipc/openwayback/wiki.
Webové stránky jsou sklízeny a ukládány ve formátech ARC a novějším formátu WARC (ISO 28500:2009) – http://www.digitalpreservation.gov/formats/fdd/fdd000236.shtml. Pro manipulaci s těmito formáty existují různé nástroje, výše zmíněné Wayback a Heritrix s těmito formáty pracují.
Další jsou např.:
Kapitola 5. Nástroje na práci s metadaty – Zpět na Úvod – Kapitola 7. Plánování dlouhodobé ochrany