Das CLARIN-Servicezentrum des Zentrums Sprache an der BBAW

Das CLARIN-Servicezentrum des Zentrums Sprache an der BBAW



Datenerhaltungsplan


Zweck dieses Dokuments

Dieses Dokument beschreibt den Datenerhaltungsplan unseres institutionellen Repositoriums im CLARIN-Center der BBAW. Bei Fragen kontaktieren Sie bitte unseren Helpdesk.

Beschreibung des digitalen Archivs / Sammelgebiet

Auszug aus dem Mission Statement:

"Das Repositorium des CLARIN-D-Servicezentrums an der BBAW dient der Langzeitarchivierung der Forschungsprimärdaten, die im Zentrum Sprache erarbeitet werden. Der Schwerpunkt liegt hierbei auf historischen und gegenwartssprachlichen Textkorpora sowie auf lexikalischen Ressourcen. Darüber hinaus steht es auch externen Projekten und Einzelwissenschaftlern nach Absprache zur Datenspeicherung zur Verfügung, soweit die Daten freien Lizenzen – beispielsweise aus der Creative-Commons-Lizenzfamilie – unterliegen und den typischen Arbeitsfeldern des Zentrums Sprache zuzuordnen sind."

Datenerhaltungsmodell

Wir verpflichten uns die uns übertragenen Datensätze langfristig zu erhalten. Dazu bauen wir auf unsere Institution (die Berlin-Brandenburgische Akademie der Wissenschaften) und unsere Mitgliedschaft in CLARIN.

Folgende technische Massnahmen stellen den Datenerhalt langfristig sicher:
  • die Nutzung von zukunftssicheren, offenen Datenformaten wie XML
  • kontinuierliche Datenformatkonvertierungen (z.B. TEI XML von P4 nach P5 oder CMDI Metadaten von 1.1 nach 1.2)
  • das Aufbewahren aller Versionen von Daten und Metadaten um einen Informationsverlust zu vermeiden
  • regelmässiges Ersetzen von Speichermedien (z.B. Festplatten bei SMART-Fehlern oder alle 5 Jahre, Bandmedien ab 50 Überschreibungen

Kooperationspartner

Unsere Kooperationspartner für Dateninhalte sind hier aufgelistet.

Datenintegrität

Um die strukturelle Integrität zu gewährleisten werden alle Daten vor dem Einspielen mit XML Werkzeugen auf Validität geprüft. Die Integrität der Daten selbst wird über den Versionskontrollmechanismus im Fedora-Commons Backend mittels MD5-Prüfsummen sichergestellt.

Der Software-Workflow erlaubt das Einspielen von Daten ausschliesslich zusammen mit passenden Metadaten (im DC- und CMDI-Format).

Rollen und Verantwortlichkeiten

Mit der Übergabe der Daten wird ein Vertrag geschlossen. Die Daten der zentrumseigenen Ressourcen stehen jeweils unter der Lizenz CC-BY-SA, soweit keine andere Lizenz angegeben ist.

Nutzungsordnung

Bitte beachten Sie unsere Nutzungsbedingungen.


Datenformate


Um die Kompatibilität und Interoperabilität der vorgehaltenen Ressourcen sicherzustellen, weisen alle Datensätze aussagekräftige Beschreibungen auf (Metadaten im modularen CMDI-Format, das von der CLARIN-Initiative entwickelt wird) und liegen in international anerkannten Formaten vor, historische Texte beispielsweise im DTA-Basisformat (einer vom Deutschen Textarchiv entwickelten echten Untermenge von TEI P5), lexikalische Daten in einer LMF-konformen (Lexical Markup Format) XML-Serialisierung und ebenso in TEI-P5-kompatiblen Auszeichnungen. Mehr Informationen zu CLARIN-spezifischen Formatanforderungen finden Sie im CLARIN-D-User-Guide.

Die Mitarbeiterinnen und Mitarbeiter des Servicezentrums unterstützen Sie zudem gern in Fragen der Ressourcenaufbereitung und Formatkonvertierung, unter Umständen bereits während der Entwicklung von Projektanträgen. 

Suche und Harvesting

Die Metadaten der im Repositorium vorgehaltenen Daten stehen über einen OAI-PMH-konformen Endpunkt unter OAI-Provider zur automatischen Abfrage (Harvesting) bereit. Eine aggregierte Übersicht über sämtliche im CLARIN-Netzwerk verfügbaren Ressourcen und Dienste erhalten Sie beispielsweise über das Virtual Language Observatory. Das Repositorium des CLARIN-D-Servicezentrums der BBAW können Sie auch direkt durchsuchen

Qualitätskontrolle

Das Repositorium ist vom Konsortium des Core Trust Seal zertifiziert worden. Die Aufnahme von Ressourcen in das Repositorium erfolgt nach vorhergehender Qualitätskontrolle sowohl der Daten als auch der Metadaten.

Wir orientieren uns bei der Bewertung an den DFG-Empfehlungen für gute wissenschaftliche Praxis, dem European Code of Conduct for Research Integrity der ALLEA (All European Academies), den BBAW-Richtlinien zur Sicherung guter wissenschaftlicher Praxis sowie an den Best-Practice-Richtlinien von CLARIN-D, die im CLARIN-D Benutzerhandbuch dargelegt sind.

Maßnahmen zur Qualitätssicherung der produzierten Daten bilden einen substantiellen Bestandteil im Workflow des CLARIN Servicecenters an der BBAW. Hierbei kommen das kollaborative Online-Kurationswerkzeug DTAQ und andere Qualitätskontrollen zum Einsatz.

Daten Management

Die permanente Referenzierbarkeit der gespeicherten Daten und der Metadatensätze wird durch die Vergabe von Persistent Identifiers (PID) sichergestellt. Neue Versionen einer Ressource erhalten jeweils eigene PIDs; frühere Versionen bleiben dauerhaft verfügbar. Die Datenintegrität wird über MD5-Hashwerte mindestens einmal jährlich kontrolliert. Ebenso wird mindestens einmal jährlich geprüft, ob Metadaten aktualisiert oder veraltete Datenformate ersetzt bzw. in neuere überführt werden müssen. Das Repositorium wird wöchentlich auf ein Bandlaufwerk gesichert. Darüber hinaus werden beim Einspielen von neuen Daten "Abbilder" (sogenannte Snapshots) der betroffenen virtuellen Server erzeugt, die eine schnelle Wiederherstellung im Falle eines Totalausfalls (Disaster Recovery) ermöglichen.

Als Repositoriums-Software kommt Fedora Commons zum Einsatz.

Mit der Übergabe der Daten wird ein Vertrag geschlossen.

Workflow
archive workflow

Speichertechnik

Die virtuellen Maschinen des CLARIN Servicezentrums der BBAW sind auf Festplatten gespeichert, die per RAID 6 gesichert sind. Jede Nacht werden das Deteisystem und Datenbankabbilder der virtuellen Maschinen auf ein dediziertes Backupserversystem kopiert (ebenfalls RAID 6).

Festplattenfehler werden per S.M.A.R.T. Status-Prüfung erkannt. Wöchentliche Sicherungen werden auf einer LTO-8 Bandlaufwerks-Bibliothek erstellt. Backupbänder werden in einem verschlossenen Tresor in einem anderen Brandschutzabschnitt des Gebäudes gelagert. Jedes Jahr wird eine Komplettsicherung auf Bändern entnommen und einem Langzeitarchiv hinzugefügt.

Die Backupsoftware Bareos erstellt und kontrolliert Prüfsummen um Bandfehler zu erkennen.

Abbilder der virtuellen Maschinen werden erstellt und auf einen weiteren Virtualisierungsserver in einem anderen Serverraum in einem anderen Brandschutzabschnitt repliziert. Bei einem Systemausfall können die replizierten Abbilder innerhalb von Minuten manuell gestartet werden.

Eine Übersicht über die verwendeten Speicherorte und -Medien gibt es hier.

Zur Suche im Repositorium.