Das CLARIN-Servicezentrum des Zentrums Sprache an der BBAW

Das CLARIN-Servicezentrum des Zentrums Sprache an der BBAW



Suche im Repositorium ...

Das Repositorium des CLARIN-D-Servicezentrums an der BBAW dient der Langzeitarchivierung der Forschungsprimärdaten, die im Zentrum Sprache erarbeitet werden. Der Schwerpunkt liegt hierbei auf historischen und gegenwartssprachlichen Textkorpora sowie auf lexikalischen Ressourcen. Darüber hinaus steht es auch externen Projekten und Einzelwissenschaftlern nach Absprache zur Datenspeicherung zur Verfügung, soweit die Daten freien Lizenzen – beispielsweise aus der Creative-Commons-Lizenzfamilie – unterliegen und den typischen Arbeitsfeldern des Zentrums Sprache zuzuordnen sind. Mit der Übergabe der Daten wird ein Vertrag geschlossen. Die Daten der zentrumseigenen Ressourcen stehen jeweils unter der Lizenz CC-BY-SA, soweit keine andere Lizenz angegeben ist. Bitte beachten Sie unsere Nutzungsbedingungen.

Datenformate
Um die Kompatibilität und Interoperabilität der vorgehaltenen Ressourcen sicherzustellen, weisen alle Datensätze aussagekräftige Beschreibungen auf (Metadaten im modularen CMDI-Format, das von der CLARIN-Initiative entwickelt wird) und liegen in international anerkannten Formaten vor, historische Texte beispielsweise im DTA-Basisformat (einer vom Deutschen Textarchiv entwickelten echten Untermenge von TEI P5), lexikalische Daten in einer LMF-konformen (Lexical Markup Format) XML-Serialisierung und ebenso in TEI-P5-kompatiblen Auszeichnungen. Mehr Informationen zu CLARIN-spezifischen Formatanforderungen finden Sie im CLARIN-D-User-Guide.
Die Mitarbeiterinnen und Mitarbeiter des Servicezentrums unterstützen Sie zudem gern in Fragen der Ressourcenaufbereitung und Formatkonvertierung, unter Umständen bereits während der Entwicklung von Projektanträgen. 

Suche und Harvesting
Die Metadaten der im Repositorium vorgehaltenen Daten stehen über einen OAI-PMH-konformen Endpunkt unter OAI-Provider zur automatischen Abfrage (Harvesting) bereit. Eine aggregierte Übersicht über sämtliche im CLARIN-Netzwerk verfügbaren Ressourcen und Dienste erhalten Sie beispielsweise über das Virtual Language Observatory. Das Repositorium des CLARIN-D-Servicezentrums der BBAW können Sie auch direkt durchsuchen

Qualitätskontrolle
Das Repositorium ist vom Konsortium des Core Trust Seal zertifiziert worden. Die Aufnahme von Ressourcen in das Repositorium erfolgt nach vorhergehender Qualitätskontrolle sowohl der Daten als auch der Metadaten.
Wir orientieren uns bei der Bewertung an den DFG-Empfehlungen für gute wissenschaftliche Praxis, dem European Code of Conduct for Research Integrity der ALLEA (All European Academies), den BBAW-Richtlinien zur Sicherung guter wissenschaftlicher Praxis sowie an den Best-Practice-Richtlinien von CLARIN-D, die im CLARIN-D User Guide dargelegt sind.
Maßnahmen zur Qualitätssicherung der produzierten Daten bilden einen substantiellen Bestandteil im Workflow des CLARIN-Servicecenters an der BBAW. Hierbei kommen das kollaborative Online-Kurationswerkzeug DTAQ und andere Qualitätskontrollen zum Einsatz.

Daten Management
Die permanente Referenzierbarkeit der gespeicherten Daten und der Metadatensätze wird durch die Vergabe von Persistent Identifiers (PID) sichergestellt. Neue Versionen einer Ressource erhalten jeweils eigene PIDs; frühere Versionen bleiben dauerhaft verfügbar. Die Datenintegrität wird über MD5-Hashwerte mindestens einmal jährlich kontrolliert. Ebenso wird mindestens einmal jährlich geprüft, ob Metadaten aktualisiert oder veraltete Datenformate ersetzt bzw. in neuere überführt werden müssen. Das Repositorium wird wöchentlich auf ein Bandlaufwerk gesichert. Darüber hinaus werden beim Einspielen von neuen Daten "Abbilder" (sogenannte Snapshots) der betroffenen virtuellen Server erzeugt, die eine schnelle Wiederherstellung im Falle eines Totalausfalls (Disaster Recovery) ermöglichen.
Als Repositoriums-Software kommt Fedora Commons zum Einsatz.

Workflow
archive workflow

Speichertechnik

Die virtuellen Maschinen des CLARIN Servicezentrums der BBAW sind auf Festplatten gespeichert, die per RAID 6 gesichert sind. Jede Nacht werden das Deteisystem und Datenbankabbilder der virtuellen Maschinen auf ein dediziertes Backupserversystem kopiert (ebenfalls RAID 6).

Festplattenfehler werden per S.M.A.R.T. Status-Prüfung erkannt. Wöchentliche Sicherungen werden auf einer LTO-8 Bandlaufwerks-Bibliothek erstellt. Backupbänder werden in einem verschlossenen Tresor in einem anderen Brandschutzabschnitt des Gebäudes gelagert. Jedes Jahr wird eine Komplettsicherung auf Bändern entnommen und einem Langzeitarchiv hinzugefügt.

LTO Bandmedien werden regelmässig auf Verfallserscheinungen hin überprüft indem der Band-Fehlerspeicher (LTO-CM) ausgelesen wird. Auch die Backupsoftware erstellt und kontrolliert Prüfsummen um Bandfehler zu erkennen.

Abbilder der virtuellen Maschinen werden erstellt und auf einen weiteren Virtualisierungsserver in einem anderen Serverraum in einem anderen Brandschutzabschnitt repliziert. Bei einem Systemausfall können die replizierten Abbilder innerhalb von Minuten manuell gestartet werden.