1. Globální informační zdroje a infrastruktura
1. Globální informační zdroje a infrastruktura
Dlouhodobá archivace a digitální kurátorství stojí na kolektivním úsilí mnoha komunit, které poskytují své zdroje volně dalším komunitám. Žádný digitální repozitář neexistuje ve vakuu, a žádný není zcela soběstačný, každý pro svůj provoz potřebuje informace a nástroje vytvořené jinými komunitami. Jednoduchá řešení i komplexní systémy pro zajištění dlouhodobé archivace a správu dat se obvykle skládají z celé řady technických a organizačních komponent.
Příklady komponent:
HW a SW, úložná média, technické nástroje pro zpracování dat, databáze, atd.
Lidé a jejich kompetence
Standardy a pracovní postupy
Finanční zdroje, organizace, mandát
Ochraňovaná data
Dodavatelé a uživatelé dat a jejich systémy, znalosti a potřeby
Strategie a plány mateřské instituce
Definice pracovních pozic
Procesní dokumentace
Bezpečnostní předpisy a dokumentace
Dlouhodobé uchovávání digitálních dat je nekonečný sled rozhodnutí, ke kterým potřebují správci digitálních dat a manažeři repozitářů odborné informace. Rozhodnutí, která mají vliv na schopnost uchovat digitální materiál, jsou jak strategické nebo manažerské povahy týkající se organizačních hledisek, tak zcela odborné a technické povahy, jako např. rozhodování o konkrétních krocích spojených s ochranou daného obrazového souboru. Odborné informace mohou správci získat z relevantní komunity, z volně dostupných zdrojů, ale také právě díky různým nástrojům a jejich výstupům. Každá lokální komunita pro dlouhodobou archivaci sdílí svoje informační zdroje a některé informační zdroje zpřístupňuje globálně, online komukoli (např. komunita uživatelů konkrétního systému pro dlouhodobou ochranu – LTP – long-term preservation systém, projekty apod.).
Příklady procesů rozhodování (více například v dokumentu ROSENTHAL, Colin a kol.):
Definice sbírek a dat, která mají byt předmětem ochrany.
Volba HW a SW komponent (komerční vs. open source, lokální vs. SaaS – Software jako služba, pásky vs. disky apod.).
Volba způsobu ukládání dat a jejich záloh (GRID, cloud, lokální souborové systémy).
Návrh metod zajištění integrity dat.
Volba a specifikace metadat, přijímaných datových formátů, struktur balíčků SIP/DIP/AIP (terminologie OAIS ISO 14721:2012).
Stanovení kvalifikačních požadavků a organizačního uspořádání.
Definice významných (signifikantních) vlastností ukládaného materiálu, které je potřeba dlouhodobě ochránit.
Technická rozhodnutí o tom, co je a co není validní soubor vhodný pro archivaci.
Strategie/pravidla na řešení problémů se soubory.
Volba strategie ochrany (emulace, migrace, normalizace).
Příklady organizací a projektů věnujících se dlouhodobému uchovávání dat
Páteří globální komunity dlouhodobého uchovávání digitálních dat jsou organizace, které se tímto problémem přímo zabývají, sdílejí znalosti, financují výzkum a podporují např. vydávání relevantních publikací. Jde o směs organizací, které často jsou jakýmsi metodickým centrem v konkrétní zemi, nebo navazují na úspěšný projekt.
Open Preservation Foundation (OPF) – navazuje a spravuje výsledky projektu Planets (nástroje, vzniklou komunitu, informační zdroje) a podporuje další výzkum v oblasti LTP.
DPC (Digital Preservation Coalition), DCC (Digital Curation Centre) – sdružení podporující vzdělávání a výzkum v oblasti dlouhodobé archivace).
Research Data Alliance (RDA) – organizace zaměřená na propagaci správy a sdílení vědeckých dat.
POWRR (Preserving Digital Objects with Restricted Resources) – americký projekt financovaný z National Endowment for the Humanities zaměřený na provádění dlouhodobé ochrany s omezeným rozpočtem
FADGI (Federal Agencies Guidelines Initiative) – americká organizace zaměřená na vytváření a propagaci standardů digitalizace a dlouhodobé ochrany dat
APARSEN (Alliance for Permanent Access) – evropský projekt s množstvím užitečných výstupů (nástrojů a publikací)
JISC – britská organizace zaměřená na využití, správu a ochranu akademických a vědeckých digitálních dat
Národní iniciativy jako:
Nestor – německé sdružení pro dlouhodobou archivaci, zabývá se standardizací, podporuje výzkum, vzdělávání, audit a certifikaci).
NDSA (National Agenda for Digital Stewardship) – komunita institucí zabývajících se dlouhodobou archivací v USA v projektu NDIIPP a dalších projektech.
NCDD (Netherlands Coalition for Digital Preservation) – nizozemská komunita okolo dlouhodobé ochrany digitálních dat.
Digitalbevaring.dk – dánská komunita okolo dlouhodobé ochrany digitálních dat
Velké knihovny převážně západních zemí:
Kongresová knihovna, USA;
Národní knihovna Nového Zélandu;
Národní archiv Velké Británie (TNA);
Britská knihovna;
Královská knihovna Nizozemí;
Národní knihovna Austrálie aj.
Nesmíme také zapomenout uvést, že většina amerických univerzit má long-term preservation program, např. University of Michigan a jejich ICPSR: http://www.icpsr.umich.edu/icpsrweb/content/datamanagement/preservation/index.html.
Globální informační zdroje – formátové registry
Během posledních 15 let byly klíčovými informačními zdroji pro dlouhodobou archivaci především tzv. formátové knihovny/formátové registry. Formátová knihovna PRONOM se stala hlavní součástí infrastruktury a závisí na ní řada repozitářů. Obsahuje technické informace o formátech, ale především distribuuje tzv. "signatures files", tedy soubory s definicemi, které slouží nástrojům jako je DROID, FIDO nebo Siegfried k automatické identifikaci formátů. Obdobně další nástroje pro identifikaci formátů, jako je například Unix File nebo TRID mají svoje vlastní mechanismy, jak tvoří a aktualizují svoje "signatures".
Registry by měly odpovědět mj. na následující otázky (odpovídá registru PRONOM – viz dále v textu):
Mám digitální objekt, v jakém je formátu?
Digitální objekt uvádí, že jde o formát X, je to opravdu formát X?
Mám objekt ve formátu X a chci jej převést na formát Y, jak?
Mám digitální objekt ve formátu X, jaké má vlastnosti?
Mám digitální objekt ve formátu X, jaká k němu existuje dokumentace?
Mám digitální objekt ve formátu X, jaké je s ním spojeno riziko?
Mám digitální objekt ve formátu X, jak a čím jej mohu zobrazit?
Z výše uvedených je nejdůležitější a nejpoužívanější registr PRONOM. Je to projekt Národního archivu Velké Británie (TNA), kde registr vznikl jako jejich interní znalostní báze spojená s nástrojem (DROID). Až později byl registr zpřístupněn celé komunitě. Jen málo lidí si ale uvědomuje, že jde stále primárně o interní projekt TNA, který se v první řadě řídí především jeho potřebami a možnostmi, nároky a potřeby komunity jsou pak sekundární. V posledních letech se rozvoj zpomalil, protože TNA nemá finance na další vývoj a doplňování obsahu. Toto je skutečná hrozba, protože většina digitálních repozitářů používá právě PRONOM/DROID na identifikaci formátů.
Pokusy nahradit PRONOM zatím neuspěly, projekt GDFR (odkaz přesměrován, 2020) vyprodukoval například registr UDFR, kde jsou technologií sémantického webu spojeny obsahy registru formátů GDFR a PRONOM. Samotný britský národní archiv (TNA) se okolo roku 2012 pokoušel vytvořit sémantickou a lépe prohledávatelnou verzi PRONOMu, ale tato verze nebyla nikdy publikována. Kritiky PRONOMU se týkají především pomalého tempa přidávání nových informací, zastaralé technologie a také faktu, že řada informací v PRONOMU chybí. I proto vznikají pokusy o náhradu jako např. nedávno zahájený projekt Digital preservation technical registry (odkaz přesměrován, 2020), který má ambice být více než jen "pouhou" formátovou knihovnou.
Nesmíme zapomenout ani na britský projekt Preserv2 (odkaz přesměrován, 2020), který je sémanticky bohatší variantou PRONOMu. Data v registru jsou z různých zdrojů, např. PRONOM, dbpedia aj.
Proč je PRONOM důležitý?
Distribuuje soubory se "signatures" nezbytné k identifikaci formátových souborů (v podobě tzv. "signatures files releases", které pak používá nástroj DROID http://www.nationalarchives.gov.uk/aboutapps/pronom/droid-signature-files.htm).
Udržuje a přiděluje identifikátory formátům digitálních dat (PUID), které se dnes používají v řadě komerčních a open source LTP systémech.
PRONOM identifikátory, tzv. PUIDy, jsou do jisté míry už lingua franca v komunitě DP analytiků
Umožňuje komukoli přidat formát (tedy vlastně přidat "signature").
Další relevantní alternativní zdroje k "file signatures" lze najít na těchto stránkách:
Je třeba říci, že kromě globálních a otevřených formátových knihoven existuje několik dalších komunit sdružených kolem konkrétních řešení, které společně budují vlastní formátové knihovny. Při tom využívají obvykle základní informace z PRONOMu, ale mezi členy své komunity pak sdílejí další informace o rizicích nebo pravidlech spojených se zpracováním formátů. Příklady takových komunit jsou uživatelské skupiny systémů, jako jsou Archivematica, Ex Libris Rosetta nebo SDB/Preservica.
Globální informační zdroje – znalostní báze o digitálních formátech
Kromě vlastních formátových knihoven, jejichž funkce je do značné míry technická, potřebují správci digitálního obsahu kompletní informace o digitálních formátech. Potřebují vědět, kterým digitálním formátům mohou z dlouhodobého hlediska důvěřovat a proč. Existuje několik přístupů k hodnocení vhodnosti formátu pro dlouhodobou archivaci. Prakticky největší globální dopad má přístup Kongresové knihovny, která rozlišuje sedm faktorů udržitelnosti digitálního formátu (http://www.digitalpreservation.gov/formats/). Na svém webu pak udržuje rozsáhlou znalostí bázi s informace o digitálních formátech s odkazy na dokumentaci k nim, a hodnocením jejich vhodnosti pro dlouhodobé ukládání.
Příklad informace o formátu JPEG2000 z databáze Kongresové knihovny: http://www.digitalpreservation.gov/formats/fdd/fdd000138.shtml
Vedle Kongresové knihovny lze nalézt i další seznamy informací o digitálních formátech:
http://www.magicdb.org/ – starší zdroj, přestal být udržován v roce 2005 (v roce 2020 již neaktivní, odkaz vede do Webarchive)
http://en.wikipedia.org/wiki/Category:Computer_file_formats – údaje na Wikipedii
http://www.fileformat.info/ – velmi podrobný a udržovaný zdroj informací o formátech i relevantních nástrojích
http://fileformats.archiveteam.org/wiki/Main_Page – heslo tohoto webu je Let's Solve the File Format Problem! Obsáhlý zdroje relevantních informací.
Korpusy digitálních formátů a formátových poškození
Pro testování nástrojů na identifikaci, validaci formátů nebo i např. na extrakci metadat a na SW repozitářů je k dispozici online několik více či méně rozsáhlých korpusů digitálních objektů v různých formátech. Některé z nich také obsahují soubory s typickými chybami nebo jsou záměrně poškozené, hacknuté nebo obfuskované.
Pro techničtěji orientované zájemce je také online k dispozici řada nástrojů, které umožňují snadné a kontrolované poškození bitového streamu souborů nebo další podobné manipulace s bitovým streamem. Jako jednoduchý nástroj může posloužit také jakýkoli hexadecimální editor nebo textový editor.
Část informací v této oblasti pochází z komunity zabývající se forenzním výzkumem. Může být tedy zaměřena jiným směrem, než by běžný správce digitálního obsahu v paměťové instituci očekával. Přesto se vyplatí tuto komunitu neignorovat.
Velmi cenné jsou sbírky reálných poškození (glitch, color shift apod.), bohužel volně dostupných je jich jen málo.
Příklady volně dostupných formátových korpusů:
https://github.com/openpreserve/format-corpus – korpus budovaný na webu Open Preservation Foundation, velmi rozmanitý, přispět může každý.
http://digitalcorpora.org/corpora/govdocs – obsahuje hlavně kancelářské formáty
Zpět na Úvod - Kapitola 2. Globální úsilí v oblasti standardizace a certifikace důvěryhodných digitálních repozitářů