Zweck dieses Dokuments
Dieses Dokument beschreibt den Datenerhaltungsplan unseres institutionellen Repositoriums im CLARIN-Center der BBAW. Bei Fragen kontaktieren Sie bitte unseren
Helpdesk.
Beschreibung des digitalen Archivs / Sammelgebiet
Auszug aus dem
Mission Statement:
"Das Repositorium des CLARIN-D-Servicezentrums an der BBAW dient der Langzeitarchivierung der Forschungsprimärdaten, die im Zentrum Sprache erarbeitet werden. Der Schwerpunkt liegt hierbei auf historischen und gegenwartssprachlichen Textkorpora sowie auf lexikalischen Ressourcen. Darüber hinaus steht es auch externen Projekten und Einzelwissenschaftlern nach Absprache zur Datenspeicherung zur Verfügung, soweit die Daten freien Lizenzen – beispielsweise aus der Creative-Commons-Lizenzfamilie – unterliegen und den typischen Arbeitsfeldern des Zentrums Sprache zuzuordnen sind."
Datenerhaltungsmodell
Wir verpflichten uns die uns übertragenen Datensätze langfristig zu erhalten. Dazu bauen wir auf unsere Institution (die Berlin-Brandenburgische Akademie der Wissenschaften) und unsere Mitgliedschaft in CLARIN.
Folgende technische Massnahmen stellen den Datenerhalt langfristig sicher:
- die Nutzung von zukunftssicheren, offenen Datenformaten wie XML
- kontinuierliche Datenformatkonvertierungen (z.B. TEI XML von P4 nach P5 oder CMDI Metadaten von 1.1 nach 1.2)
- das Aufbewahren aller Versionen von Daten und Metadaten um einen Informationsverlust zu vermeiden
- regelmässiges Ersetzen von Speichermedien (z.B. Festplatten bei SMART-Fehlern oder alle 5 Jahre, Bandmedien ab 50 Überschreibungen
Kooperationspartner
Unsere Kooperationspartner für Dateninhalte sind
hier aufgelistet.
Datenintegrität
Um die strukturelle Integrität zu gewährleisten werden alle Daten vor dem Einspielen mit XML Werkzeugen auf Validität geprüft.
Die Integrität der Daten selbst wird über den Versionskontrollmechanismus im Fedora-Commons Backend mittels MD5-Prüfsummen sichergestellt.
Der Software-Workflow erlaubt das Einspielen von Daten ausschliesslich zusammen mit passenden Metadaten (im DC- und CMDI-Format).
Rollen und Verantwortlichkeiten
Mit der Übergabe der Daten wird ein
Vertrag geschlossen. Die Daten der zentrumseigenen Ressourcen stehen jeweils unter der Lizenz CC-BY-SA, soweit keine andere Lizenz angegeben ist.
NutzungsordnungBitte beachten Sie unsere
Nutzungsbedingungen.
Datenformate
Um die Kompatibilität und Interoperabilität der vorgehaltenen Ressourcen sicherzustellen, weisen alle Datensätze aussagekräftige Beschreibungen auf (Metadaten im modularen
CMDI-Format, das von der CLARIN-Initiative entwickelt wird) und liegen in international anerkannten Formaten vor, historische Texte beispielsweise im
DTA-Basisformat (einer vom
Deutschen Textarchiv entwickelten echten Untermenge von TEI P5), lexikalische Daten in einer LMF-konformen (Lexical Markup Format) XML-Serialisierung und ebenso in TEI-P5-kompatiblen Auszeichnungen. Mehr Informationen zu CLARIN-spezifischen Formatanforderungen finden Sie im
CLARIN-D-User-Guide.
Die Mitarbeiterinnen und Mitarbeiter des Servicezentrums unterstützen Sie zudem gern in Fragen der Ressourcenaufbereitung und Formatkonvertierung, unter Umständen bereits während der Entwicklung von Projektanträgen.
Suche und Harvesting
Die Metadaten der im Repositorium vorgehaltenen Daten stehen über einen OAI-PMH-konformen Endpunkt unter
OAI-Provider zur automatischen Abfrage (Harvesting) bereit. Eine aggregierte Übersicht über sämtliche im CLARIN-Netzwerk verfügbaren Ressourcen und Dienste erhalten Sie beispielsweise über das
Virtual Language Observatory. Das Repositorium des CLARIN-D-Servicezentrums der BBAW
können Sie auch direkt durchsuchen.
Qualitätskontrolle
Das Repositorium ist vom Konsortium des
Core Trust Seal zertifiziert worden. Die Aufnahme von Ressourcen in das Repositorium erfolgt nach vorhergehender Qualitätskontrolle sowohl der Daten als auch der Metadaten.
Wir orientieren uns bei der Bewertung an den
DFG-Empfehlungen für gute wissenschaftliche Praxis, dem
European Code of Conduct for Research Integrity der ALLEA (All European Academies), den
BBAW-Richtlinien zur Sicherung guter wissenschaftlicher Praxis sowie an den Best-Practice-Richtlinien von CLARIN-D, die im
CLARIN-D Benutzerhandbuch dargelegt sind.
Maßnahmen zur Qualitätssicherung der produzierten Daten bilden einen substantiellen Bestandteil im Workflow des CLARIN Servicecenters an der BBAW. Hierbei kommen das
kollaborative Online-Kurationswerkzeug DTAQ und
andere Qualitätskontrollen zum Einsatz.
Daten Management
Die permanente Referenzierbarkeit der gespeicherten Daten und der Metadatensätze wird durch die Vergabe von Persistent Identifiers (PID) sichergestellt. Neue Versionen einer Ressource erhalten jeweils eigene PIDs; frühere Versionen bleiben dauerhaft verfügbar. Die Datenintegrität wird über MD5-Hashwerte mindestens einmal jährlich kontrolliert. Ebenso wird mindestens einmal jährlich geprüft, ob Metadaten aktualisiert oder veraltete Datenformate ersetzt bzw. in neuere überführt werden müssen. Das Repositorium wird wöchentlich auf ein Bandlaufwerk gesichert. Darüber hinaus werden beim Einspielen von neuen Daten "Abbilder" (sogenannte Snapshots) der betroffenen virtuellen Server erzeugt, die eine schnelle Wiederherstellung im Falle eines Totalausfalls (Disaster Recovery) ermöglichen.
Als Repositoriums-Software kommt
Fedora Commons zum Einsatz.
Mit der Übergabe der Daten wird ein
Vertrag geschlossen.
Workflow
Speichertechnik
Die virtuellen Maschinen des CLARIN Servicezentrums der BBAW sind auf Festplatten gespeichert, die per RAID 6 gesichert sind. Jede Nacht werden das Deteisystem und Datenbankabbilder der virtuellen Maschinen auf ein dediziertes Backupserversystem kopiert (ebenfalls RAID 6).
Festplattenfehler werden per S.M.A.R.T. Status-Prüfung erkannt. Wöchentliche Sicherungen werden auf einer LTO-8 Bandlaufwerks-Bibliothek erstellt. Backupbänder werden in einem verschlossenen Tresor in einem anderen Brandschutzabschnitt des Gebäudes gelagert. Jedes Jahr wird eine Komplettsicherung auf Bändern entnommen und einem Langzeitarchiv hinzugefügt.
Die Backupsoftware Bareos erstellt und kontrolliert
Prüfsummen um Bandfehler zu erkennen.
Abbilder der virtuellen Maschinen werden erstellt und auf einen weiteren Virtualisierungsserver in einem anderen Serverraum in einem anderen Brandschutzabschnitt repliziert. Bei einem Systemausfall können die replizierten Abbilder innerhalb von Minuten manuell gestartet werden.
Eine Übersicht über die verwendeten Speicherorte und -Medien gibt es
hier.
Zur Suche im Repositorium.