Projekty v České republice

Národní digitální knihovna (NDK)

http://www.ndk.cz/
    V rámci projektu NDK vznikl systém pro dlouhodobé uchování digitálních dokumentů, který je založený na technologii Safe firmy Aip Safe. Systém by měl v budoucnu sloužit jako úložiště rozličných digitálních dat ze všech českých knihoven, ale momentálně je ve fázi, kdy lze vkládat pouze data podle standardu NDK a to pouze periodika a monografické publikace s konkrétní podobou metadat.
    Vznikly také metadatové standardy s ohledem na dlouhodobou ochranu digitálních dokumentů, tedy včetně technických a administrativních metadat, pro periodika a monografické dokumenty. Data v tomto formátu jsou vytvářena i v rámci krajských digitalizačních projektů, v programu VISK 7 Kramerius a dalších projektech a vzniká i open source metadatový editor ProArc.Kvůli NDK vznikly podpůrné nástroje jako např. Resolver, který přiděluje a eviduje identifikátor urn:nbn, Differ, který validuje obrazová data ve formátu jp2 a validátor NDK, který validuje PSP balíčky oproti metadatovým standardům NDK.
    V současné době se LTP úložiště NK ČR připravuje na certifikaci dle normy ISO 16 363. Proběhl první interní audit - mezi zjištěné neshody patří nezajištění dlouhodobého financování a s tím související nemožnost plánovat dlouhodobý rozvoj úložiště, nedostatečné personální zajištění, nedefinování přesných pracovních rolí a chybějící plán vzdělávání zaměstnanců. Dále není zaveden systém kontroly srozumitelnosti uložených informací pro určenou komunitu. Po nápravě by měl následovat kontrolní audit a úložiště by poté mělo směřovat k externí certifikaci dle ISO 16363.

E-deposit

http://edeposit.nkp.cz

    E-deposit je systém pro sběr, zpracování, uložení a zpřístupnění digital born dokumentů. Je vyvíjen v rámci projektu NAKI Správa elektronických publikací v síti knihoven ČR a dalšími výstupy projektu má být i dlouhodobá ochrana tohoto typu dokumentů, která bude zajištěna v LTP repozitáři Národní knihovny ČR (NK).

    V současné době lze do e-depositu, který je v testovacím provozu, vkládat elektronické publikace, jejich dlouhodobé uložení (přesun do LTP úložiště NK) je garantováno pouze v případě, že jsou ve formátu PDF/A, nebo ePub 2.0.1 a je podepsána patřičná smlouva mezi vkladatelem a NK. Po příslušných legislativních změnách a zavedení povinné elektronického výtisku byl měl systém sloužit k sběru dokumentů a jejich šíření k dalším příjemcům povinného výtisku.

Webarchiv

http://www.webarchiv.cz

    Projekt Webarchiv se zabývá sklízením, uložením a zpřístupněním českého webu (tedy domény .cz). První sklizeň byla provedena v roce 2001, pravidelná archivace pak probíhá od roku 2005. Archivace webu je důležitá z hlediska zachování kulturního dědictví, které se na webu nachází a které, pokud není sklizeno a uloženo, velmi rychle a nenávratně mizí. 

    Je prováděno několik druhů sklizní – celoplošná, která jednou za rok přináší obraz českého webu, dále výběrová, která zahrnuje předem vybrané zdroje z různých oblastí a mapuje tak kulturní vzorek webu a poslední typ sklizně je tematická, jejímž účelem je pokrytí určité události – např. volby, povodně, aj.
    V současnosti (rok 2015) obsahuje Webarchiv 210 TB komprimovaných dat, 4 miliardy objektů a 1,2 milionu webových stránek - méně jak 1% je však volně přístupno z webu a to kvůli legislativním omezením ze strany autorského zákona. Kompletní data jsou přístupná pouze z terminálů v Národní knihovně. Při analýze formátů vzorku sklizně z dubna 2013 bylo zjištěno, že obsah českého webu (v tomto se nijak neliší od webů zahraničních) tvoří sedm hlavních formátů. Jsou to (od nejpočetnějšího): jpeg, html, xhtml, png, xml, gif a pdf.
    Další plány rozvoje Webarchivu počítají s fulltextovým vyhledáváním napříč archivovanými daty a také s větším otevřením archivu pro vědecké využití a analýzu uložených dat jak z hlediska formátů, tak i obsahu a klíčových slov, žánru nebo jazyka dokumentu. K tomu by měla být využita technologie Hadoop, která svým výkonem umožní provádět plánované operace nad tak velkým množstvím dat.

Národní digitální archiv (NDA)

http://digi.nacr.cz/

    Po peripetiích s výběrovým řízením na dodavatele SW pro digitální repozitář, které bylo dvakrát zrušeno, se Národní archiv rozhodl pro open source řešení v podobě systému Archivematica. Od 1. listopadu 2014 běží zkušební provoz s funkčním workflow pro zpracování a uložení výstupů spisové služby. První skartační řízení a uložení digitálních archiválií proběhlo v květnu 2015. 

    Na svém webu nabízí NA dva nástroje – validátor PDF/A, který kromě nástroje 3-Heights PDF Validator Shell pro samotnou validaci PDF/A používá i DROID ve verzi 4.0 na identifikaci formátů vstupujících do validátoru.
    Druhým nástrojem je Validátor SIP, který kontroluje správnost SIP balíčků vzhledem k nastaveným standardům, úplnosti SIP xml a vhodnosti formátů příloh k dlouhodobé archivaci. Formáty, které NA přijímá, jsou stanoveny v § 23 vyhlášky č. 259/2012 Sb., o podrobnostech výkonu spisové služby.
    Národní archiv ve spolupráci se Státním oblastním archivem v Praze vydal Metodiku pro vytváření bezpečnostních kopií archiválií v digitální podobě. Vedle kapitol, které se věnují organizaci práce, otázkám výběru snímacích zařízení, nebo přípravě a průběhu digitalizace, je část publikace věnována i dlouhodobé archivaci digitálních dat. Jsou zde řešena média, formáty, metadata, vhodné pojmenovávání souborů, zastarávání, migrace a další aspekty LTP. Pro menší organizace to může být vhodná pomůcka pro seznámení se s problematikou digitalizace při přípravě i v průběhu projektu.

LINDAT/CLARIN

Jedná se o digitální repozitář vědeckých dat z oboru lingvistiky a příbuzných oborů, který byl spuštěn v roce 2013. Je financován z prostředků MŠMT a který provozuje Karlova univerzita v Praze. Je určen pro vědce, kteří chtějí ukládat, uchovávat a sdílet svoje data i výsledky své práce. Mezi partnery repozitáře patří Katedra kybernetiky Západočeské univerzity, Centrum zpracování přirozeného jazyka MU Brno, Ústav pro jazyk český Akademie věd ČR a Ústav formální a aplikované lingvistiky UK Praha. Repozitář získal jako první v České republice certifikaci DSA (Data Seal of Approval). 

Jako softwarové řešení byla vybrána digitální knihovna DSpace, která vyhovovala svým open-sourcovým založením, dodržováním standardů, flexibilitou metadatového modelu, podporou autentifikace a autorizace uživatelů, podporou vyhledávačů jako je např. Google Scholar i aktivní komunitou.

Projekt CLARIN se zaměřuje na sdílení a uchovávání softwaru a globální podporu vědeckých pracovníků. Důležitá je interoperabilita jednotlivých repozitářů, které musí splňovat určitá kritéria, jako například certifikaci dle DSA. Při budování repozitáře bylo nutno překonat několik problémů:
  • Bylo nutné umožnit přihlášení uživatelů z celého světa, ale zároveň bylo potřeba autentifikovaného uživatele identifikovat jako reálnou osobu. Byla použita technologie Shibboleth a repozitář se stal součástí federací CLARIN Service Provider Federation, eduGAIN a eduID.cz. Bylo nutné odfiltrovat některé poskytovatele podporující anonymní účty, protože to odporovalo politice repozitáře. 
  • Znovupoužitelnost dat a softwaru - bez jasně stanovené licence není možné určit, co je možné s daty nebo softwarem možné dělat a proto vyvinul repozitář selektor licencí, který pomáhá uživatelům s výběrem té nejvhodnější licence pro ukládaná data. Některé licence vyžadují elektronický podpis a proto je nutné zajistit dohledatelnost osoby, která podpis použila. 
  • Byly vytvořeny procesy pro získání souhlasu k archivaci dat, protože bez výslovného povolení není možné data řádně archivovat. 
  • Pro perzistentní identifikátory byl zvolen systém handle, který spolu s přesným formátem citace pomáhá zlepšit situaci s citovaností dat a softwaru. 
  • Repozitář musel nastavit funkce na bit-level ochranu dat - pravidelně provádí automatizované kontroly kontrolních součtů, samozřejmostí jsou geograficky oddělené zálohy. 
  • Došlo k vytvoření kompletní dokumentace a nastavení strategií dlouhodobé ochrany. Dokumentace slouží zároveň jako seznam preferovaných formátů, popis zabezpečení osobních údajů uživatelů, autorských práv, metadat, zálohování a další potřebných procesů. Repozitář rovněž uzavřel smlouvy s dalšími institucemi, které by případně mohly převzít uložená data, kdyby repozitář LINDAT/CLARIN musel z nějakého důvodu ukončit svoji činnost. 

Projekt LTP Pilot

Projekt LTP Pilot je projekt financován sdružením CESNET a spolupracují na něm Masarykova univerzita a Moravská zemská knihovna v Brně. Cílem projektu je testování možností open-source Long Term Preservation systému Archivematica a jeho potencionálního využití jako nízkonákladového řešení pro české univerzity, ale i další vzdělávací a kulturní instituce. Více o projektu zde

Projekty v zahraničí

The National Digital Library of Finland 

Ve Finsku se rozhodli jít cestou centrálního repozitáře pro všechny veřejné paměťové a kulturní instituce a vytvořili národní platformu, která nabízí zúčastněným organizacím jak možnost prezentovat digitální objekty ve FINNA.FI, tak i dlouhodobou ochranu zdigitalizovaných i digital born dat v LTP úložišti.
Repozitář je postaven na modelu OAIS, používají se se v něm všechny druhy balíčků, které z OAIS všichni dobře známe. Vzhledem k zapojeným institucím (vedle knihoven jsou to i archivy, muzea, galerie, školy a obecně vzdělávací a výzkumné organizace, ale i soukromé společnosti) bylo nutné implementovat širokou škálu metadatových, formátových i dalších standardů.
Celý projekt je velmi dobře popsán, byť ne všechny dokumenty jsou dostupné v angličtině. Ale i tak je tu množství dokumentace, ze které se dá čerpat a inspirovat se jí.

Deutsche Nationalbibliothek (DNB)

Na webu DBN naleznete dobře zpracovanou wiki s dokumentací i odkazy na další weby a zdroje. Wiki je ale v němčině, což může některým zájemcům znesnadnit její studium, na druhou stranu je to alternativa všudypřítomné angličtině. Navíc je zde dokumentace k německé certifikační normě DIN 31 644, která může být vhodnou inspirací pro budování repozitáře, i když u nás je preferována mezinárodní ISO 16 363.

UK Data Archive

Jedná se o největší archiv digitálních dat z oblastí sociálních a humanitních věd ve Velké Británii, které shromažďuje data nejen z akademické, ale i veřejné a obchodní sféry. Probíhá zde kompletní proces kurátorství digitálních dat, od jejich příjmu až po další využití. 

Archiv má dlouholeté zkušenosti a podílel se na řadě domácích i mezinárodních projektů - např. APARSEN, 4C, DASISH, SERSCIDA a další. Podílel se na vytváření normy ISO 16 363 a absolvoval i testovací self-audit. 

Na webu jsou k dispozici některé dokumenty, které by neměly uniknout vaší pozornosti:

DANS - Data Archiving and Network Services

Institut DANS byl společně založen Nizozemskou královskou akademií věd a Nizozemskou organizací pro vědecký výzkum. Jeho cílem je zajišťovat dlouhodobý a neustálý přístup k vědeckým datům pro jednotlivce i akademické organizace v Nizozemí. 

Dlouhodobě se angažuje v komunitě a nejrůznějších projektech kolem digital preservation - např. 4C, Europeana cloud, APARSEN, Clarin a další. Rovněž provádí vzdělávání v oblasti datového kurátorství. 

Na půdě DANS také původně vznikl certifikační nástroj Data Seal of Approval, o kterém se můžete více dočíst zde.

Na svém webu nabízí ke studiu řadu dokumentů: