Das CLARIN-Servicezentrum des Zentrums Sprache an der BBAW

Das CLARIN-Servicezentrum des Zentrums Sprache an der BBAW



Dokumentation


Datenformate


Um die Kompatibilität und Interoperabilität der vorgehaltenen Ressourcen sicherzustellen, weisen alle Datensätze aussagekräftige Beschreibungen auf (Metadaten im modularen CMDI-Format, das von der CLARIN-Initiative entwickelt wird) und liegen in international anerkannten Formaten vor, historische Texte beispielsweise im DTA-Basisformat (einer vom Deutschen Textarchiv entwickelten echten Untermenge von TEI P5), lexikalische Daten in einer LMF-konformen (Lexical Markup Format) XML-Serialisierung und ebenso in TEI-P5-kompatiblen Auszeichnungen. Mehr Informationen zu CLARIN-spezifischen Formatanforderungen finden Sie im CLARIN-D-User-Guide.

Die Mitarbeiterinnen und Mitarbeiter des Servicezentrums unterstützen Sie zudem gern in Fragen der Ressourcenaufbereitung und Formatkonvertierung, unter Umständen bereits während der Entwicklung von Projektanträgen. 

Suche und Harvesting

Die Metadaten der im Repositorium vorgehaltenen Daten stehen über einen OAI-PMH-konformen Endpunkt unter OAI-Provider zur automatischen Abfrage (Harvesting) bereit. Eine aggregierte Übersicht über sämtliche im CLARIN-Netzwerk verfügbaren Ressourcen und Dienste erhalten Sie beispielsweise über das Virtual Language Observatory. Das Repositorium des CLARIN-D-Servicezentrums der BBAW können Sie auch direkt durchsuchen

Qualitätskontrolle

Das Repositorium ist vom Konsortium des Data Seal of Approval zertifiziert worden. Die Aufnahme von Ressourcen in das Repositorium erfolgt nach vorhergehender Qualitätskontrolle sowohl der Daten als auch der Metadaten.

Wir orientieren uns bei der Bewertung an den DFG-Empfehlungen für gute wissenschaftliche Praxis, dem European Code of Conduct for Research Integrity der ALLEA (All European Academies), den BBAW-Richtlinien zur Sicherung guter wissenschaftlicher Praxis sowie an den Best-Practice-Richtlinien von CLARIN-D, die im CLARIN-D User Guide dargelegt sind.

Maßnahmen zur Qualitätssicherung der produzierten Daten bilden einen substantiellen Bestandteil im Workflow des CLARIN Servicecenters an der BBAW. Hierbei kommen das kollaborative Online-Kurationswerkzeug DTAQ und andere Qualitätskontrollen zum Einsatz.

Daten Management

Die permanente Referenzierbarkeit der gespeicherten Daten und der Metadatensätze wird durch die Vergabe von Persistent Identifiers (PID) sichergestellt. Neue Versionen einer Ressource erhalten jeweils eigene PIDs; frühere Versionen bleiben dauerhaft verfügbar. Die Datenintegrität wird über MD5-Hashwerte mindestens einmal jährlich kontrolliert. Ebenso wird mindestens einmal jährlich geprüft, ob Metadaten aktualisiert oder veraltete Datenformate ersetzt bzw. in neuere überführt werden müssen. Das Repositorium wird wöchentlich auf ein Bandlaufwerk gesichert. Darüber hinaus werden beim Einspielen von neuen Daten "Abbilder" (sogenannte Snapshots) der betroffenen virtuellen Server erzeugt, die eine schnelle Wiederherstellung im Falle eines Totalausfalls (Disaster Recovery) ermöglichen.

Als Repositoriums-Software kommt Fedora Commons zum Einsatz.

Mit der Übergabe der Daten wird ein Vertrag geschlossen.

Workflow
archive workflow

Suche im Repositorium.