Projekty

Projekty v České republice

ARCLib

web projektu: https://arclib.cz/, zdrojový kód: https://github.com/LIBCAS/ARCLib

Společný projekt Knihovny Akademie věd, Národní knihovny ČR, Moravské zemské knihovny a Masarykovy univerzity (financován z programu NAKI II Ministerstva kultury ČR, 2016-2020). Hlavním výstupem projektu je open source systém pro dlouhodobou ochranu digitální dat ARCLib. Ten je určen pro střední a velké paměťové instituce (primárně knihovny, ale též archivy, muzea a galerie) a je tak alternativou ke komerčním systémům. Vývoj probíhal v souladu s mezinárodními normami (především referenčním modelem OAIS) a s ohledem na metadatové standardy a podobu datových balíčků v českých digitálních knihovnách (dle standardů Národní digitální knihovny).

ARCLib předpokládá vstup balíčků z jiných systémů - především z metadatového editoru ProArc, digitální knihovny Kramerius nebo repozitáře DSpace, ale díky svojí otevřenosti je možné do něj importovat nejrůznější typy dat. Vzhledem k tomu, že v knihovním prostředí disponuje (prozatím?) dlouhodobým repozitářem digitálních dat pouze Národní knihovna ČR, je dostupný open source LTP systém velmi důležitým počinem. Umožní dalším institucím budovat své digitální repozitáře nezávisle na centrálních institucích a rozšířit tak síť LTP úložišť. Možným propojením jednotlivých repozitářů může být také zvýšena bezpečnost uložených dat jejich uložením v geograficky oddělených lokalitách.

Vedle samotného systému ARCLib vznikly v rámci projektu i dvě certifikované metodiky, které pokrývají bitovou i logickou ochranu digitálních dat a mohou všem zájemcům o problematiku pomoci s orientací v tématu nebo v budování dlouhodobého digitálního repozitáře:

LINDAT/CLARIAH-CZ

web: https://clariah.lindat.cz/

LINDAT/CLARIAH-CZ je digitální výzkumná infrastruktura pro jazykové technologie, umění a humanitní vědy – program Velké infrastruktury pro výzkum, vývoj a inovace. Výzkumná infrastruktura LINDAT/CLARIAH-CZ vznikla spojením LINDAT/CLARIN (Centrum jazykové výzkumné infrastruktury) a DARIAH-CZ (Digitální infrastruktura pro umění a humanitní vědy) díky Ministerstvu školství, mládeže a tělovýchovy ČR a je zároveň národním uzlem v evropských výzkumných infrastrukturách CLARIN ERIC (Common Language Resources and Technology Infrastructure) a DARIAH ERIC (Digital Research Infrastructure for the Arts and Humanities). Aktuálně se LINDAT/CLARIAH‐CZ v období 2019⁠–⁠2022 soustředí především na zpřístupnění a propojení existujících zdrojů u nově zapojených institucí a na vytvoření jednotného systému zpracování a otevřeného přístupu ke sbírkám a využití metadat.

Moravská zemská knihovna v rámci projektu pracuje na zkvalitnění přístupu k digitálním zdrojům a nástrojům pro zpracování dat, zejména obsahu digitálních repozitářů, také se zaobírá nasazením optimalizačních nástrojů a standardů IIIF API.

Do projektu LINDAT/CLARIAH-CZ jsou zapojeny tyto instituce:

  • Univerzita Karlova

  • Národní knihovna ČR

  • Knihovna Akademie věd ČR

  • Moravská zemská knihovna v Brně

  • Masarykova univerzita

  • Západočeská univerzita v Plzni

  • Filosofický ústav AV ČR

  • Historický ústav AV ČR

  • Ústav pro jazyk český AV ČR

  • Národní filmový archiv

  • Národní galerie

Národní digitální knihovna (NDK)

web: https://old.ndk.cz/

V rámci projektu NDK vznikl systém pro dlouhodobé uchování digitálních dokumentů, který je založený na technologii Safe firmy Aip Safe. Systém by měl v budoucnu sloužit jako úložiště rozličných digitálních dat ze všech českých knihoven, ale momentálně je ve fázi, kdy lze vkládat pouze data podle standardu NDK a to pouze periodika a monografické publikace s konkrétní podobou metadat.

Vznikly také metadatové standardy s ohledem na dlouhodobou ochranu digitálních dokumentů, tedy včetně technických a administrativních metadat, pro periodika a monografické dokumenty. Data v tomto formátu jsou vytvářena i v rámci krajských digitalizačních projektů, v programu VISK 7 Kramerius a dalších projektech a je vyvíjen i open source metadatový editor ProArc, na čemž se podílí také Knihovna Akademie věd a Moravská zemská knihovna v Brně.

V současné době se LTP úložiště NK ČR připravuje na certifikaci dle normy ISO 16 363. Podle interního auditu patří mezi problémy nezajištění dlouhodobého financování a s tím související nemožnost plánovat dlouhodobý rozvoj úložiště, nedostatečné personální zajištění, nedefinování přesných pracovních rolí a chybějící plán vzdělávání zaměstnanců. Dále není zaveden systém kontroly srozumitelnosti uložených informací pro určenou komunitu. Po nápravě by měl následovat kontrolní audit a úložiště by poté mělo směřovat k externí certifikaci dle ISO 16363.

Webarchiv

web: http://www.webarchiv.cz

Projekt Webarchiv se zabývá sklízením, uložením a zpřístupněním českého webu (tedy domény .cz). První sklizeň byla provedena v roce 2001, pravidelná archivace pak probíhá od roku 2005. Archivace webu je důležitá z hlediska zachování kulturního dědictví, jenž se na webu nachází a které, pokud není sklizeno a uloženo, velmi rychle a nenávratně mizí.

Je prováděno několik druhů sklizní – celoplošná, která jednou za rok přináší obraz českého webu, dále výběrová, která zahrnuje předem vybrané zdroje z různých oblastí a mapuje tak kulturní vzorek webu a poslední typ sklizně je tematická, jejímž účelem je pokrytí určité události – např. volby, povodně, epidemie COVID-19 aj.

V současnosti (rok 2020) obsahuje Webarchiv přes 409 TB komprimovaných dat, miliardy objektů a několik milionů webových stránek - méně jak 1% je však volně přístupno z webu a to kvůli legislativním omezením ze strany autorského zákona. Kompletní data jsou přístupná pouze z terminálů v Národní knihovně. Při analýze formátů vzorku sklizně z dubna 2013 bylo zjištěno, že obsah českého webu (v tomto se nijak neliší od webů zahraničních) tvoří sedm hlavních formátů. Jsou to (od nejpočetnějšího): jpeg, html, xhtml, png, xml, gif a pdf.

Další plány rozvoje Webarchivu počítají s fulltextovým vyhledáváním napříč archivovanými daty a také s větším otevřením archivu pro vědecké využití a analýzu uložených dat jak z hlediska formátů, tak i obsahu a klíčových slov, žánru nebo jazyka dokumentu.

Národní digitální archiv (NDA)

web: http://digi.nacr.cz/

Po peripetiích s výběrovým řízením na dodavatele SW pro digitální repozitář, které bylo dvakrát zrušeno, se Národní archiv rozhodl pro open source řešení v podobě systému Archivematica. Ke konci roku 2014 se rozběhl zkušební provoz s funkčním workflow pro zpracování a uložení výstupů spisové služby. První skartační řízení a uložení digitálních archiválií proběhlo v květnu 2015.

Na svém webu nabízí Národní archiv dva nástroje – validátor PDF/A, který kromě nástroje 3-Heights PDF Validator Shell pro samotnou validaci PDF/A používá i DROID na identifikaci formátů vstupujících do validátoru.

Druhým nástrojem je Validátor SIP, který kontroluje správnost SIP balíčků vzhledem k nastaveným standardům, úplnosti SIP xml a vhodnosti formátů příloh k dlouhodobé archivaci. Formáty, které NA přijímá, jsou stanoveny v § 23 vyhlášky č. 259/2012 Sb., o podrobnostech výkonu spisové služby.

Národní archiv ve spolupráci se Státním oblastním archivem v Praze vydal Metodiku pro vytváření bezpečnostních kopií archiválií v digitální podobě. Vedle kapitol, které se věnují organizaci práce, otázkám výběru snímacích zařízení, nebo přípravě a průběhu digitalizace, je část publikace věnována i dlouhodobé archivaci digitálních dat. Jsou zde řešena média, formáty, metadata, vhodné pojmenovávání souborů, zastarávání, migrace a další aspekty LTP. Pro menší organizace to může být vhodná pomůcka pro seznámení se s problematikou digitalizace při přípravě i v průběhu projektu.

Projekt LTP Pilot

Projekt LTP Pilot byl projekt financován sdružením CESNET a spolupracovaly na něm Masarykova univerzita a Moravská zemská knihovna v Brně. Cílem projektu bylo otestovat možnosti open source Long Term Preservation systému Archivematica a jeho potencionálního využití jako nízkonákladového řešení pro české univerzity, ale i další vzdělávací a kulturní instituce. Zkušenosti z tohoto projektu byly využity při přípravě a realizaci projetu ARCLib (2016-2020).

Více o projektu zde.