Aktuelles aus dem Normenausschuss NID
Webseiten entstehen und verschwinden jeden Tag aus dem World Wide Web. In den letzten 10 Jahren haben Gedächtnisorganisationen versucht Wege zu finden, um diese riesige Menge an wichtigem Material mit Hilfe von IT-Tools zu überwachen und zu erfassen. Hierfür wurden unter anderem Webcrawler eingesetzt.
Das WARC-Dateiformat (Web ARChive) ist eine Erweiterung des ARC-Dateiformats (ARC), das traditionell verwendet wurde, um „Webcrawls“ als Sequenzen von Inhaltsblöcken zu speichern, die aus dem World Wide Web stammen.
Das ursprüngliche ARC-Dateiformat wurde unter anderem vom Internet Archive (IA) und mehreren Nationalbibliotheken eingesetzt.
Die Motivation einer Erweiterung des ARC-Formats ergab sich aus den Erfahrungen des International Internet Preservation Consortium (IIPC), zu dessen Mitgliedern die Nationalbibliotheken Australiens, Kanadas, Dänemarks, Finnlands, Frankreichs, Islands, Italiens, Norwegens, Schwedens, die British Library (BL), die Library of Congress (LoC) und das Internet Archive (IA) zählen. Auch die California Digital Library (CDL) und das Los Alamos National Laboratory (LANL) lieferten Beiträge zur Erweiterung des Formats.
Das WARC-Dateiformat ermöglicht die Verkettung mehrerer Datensätze, die jeweils aus einem Satz einfacher Text-Header und einem beliebigen Datenblock in einer langen Datei bestehen.
Es bietet damit eine standardisierte Möglichkeit zur Strukturierung, Verwaltung und Speicherung von Milliarden von Ressourcen, die im Internet und anderswo gesammelt wurden.
Link zur Norm