6. Speciální nástroje pro oblast archivace webu
6. Speciální nástroje pro oblast archivace webu
Archivace webu (nebo Internetu) je do jisté míry specializovanou oblastí dlouhodobé ochrany digitálních dat. Cílem je stáhnout (sklízet) obsah internetových stránek a to v různém rozsahu. Národní knihovny často sklízejí obsah celé národní domény (např. doména .cz) a dělají také tematické sklizně. Instituce se mohou zaměřovat na vlastní stránky, na stránky zabývající se konkrétní tématikou apod.
Nutným nástrojem ke sklízení je tzv. harvester (nebo crawler). Nejrozšířenější je Heritrix – https://webarchive.jira.com/wiki/display/Heritrix.
Dále jsou nutné nástroje na indexaci sklizeného obsahu, jako např. SOLR nebo Apache Lucene.
Pro zpřístupnění, které je v případě webového obsahu specifické, lze použít např. Wayback Machine – https://github.com/internetarchive/wayback nebo nově OpenWayback https://github.com/iipc/openwayback/wiki.
Webové stránky jsou sklízeny a ukládány ve formátech ARC a novějším formátu WARC (ISO 28500:2009) – http://www.digitalpreservation.gov/formats/fdd/fdd000236.shtml. Pro manipulaci s těmito formáty existují různé nástroje, výše zmíněné Wayback a Heritrix s těmito formáty pracují.
Další jsou např.:
Kapitola 5. Nástroje na práci s metadaty – Zpět na Úvod – Kapitola 7. Plánování dlouhodobé ochrany