Das CLARIN-Servicezentrum des Zentrums Sprache an der BBAW

Das CLARIN-Servicezentrum des Zentrums Sprache an der BBAW



Das CLARIN-Servicezentrum am Zentrum Sprache der BBAW konzentriert sich in seiner Korpusarbeit schwerpunktmäßig auf historische Korpora vom 16. bis 20. Jahrhundert. Die Korpora sind, soweit es das Urheberrecht erlaubt, mit offenen Lizenzen versehen und somit als Forschungsdaten nachnutzbar. Alle Korpora sind gemäß anerkannter Standards annotiert (TEI/P5, CMDI); auf sie kann über das Repositorium zugegriffen werden.

Die Korpora des CLARIN-Servicezentrums der BBAW sind
Deutsches Textarchiv (DTA)
Das Deutsche Textarchiv (DTA) erarbeitet einen disziplinen- und gattungs-übergreifenden Grundbestand deutschsprachiger Texte aus dem Zeitraum von ca. 1600 bis 1900 und hat zum Ziel, über Eigendigitalisierungen sowie über Kooperationen die Grundlage für ein Referenzkorpus des Neuhochdeutschen zu schaffen. Sämtliche Texte sind schreibweisentolerant durchsuchbar, werden in einer Text/Bild-Ansicht dargestellt und stehen zum Download zur Verfügung. ... mehr

DTAE – DTA-Erweiterungen
Wissenschaftlerinnen und Wissenschaftler, die im Rahmen ihrer Arbeiten Texte des späten 16. bis frühen 20. Jahrhunderts bearbeiten und digitalisieren, haben die Möglichkeit, diese Texte im Modul DTAE zu veröffentlichen. Auf diese Weise wird das DTA-Kernkorpus durch Primärtexte aus anderen Projektkontexten fortlaufend ergänzt, um die Vielfalt und Qualität des DTA weiter zu erhöhen. Darüber hinaus können diese angelagerten Texte als Spezialkorpora mit dem DTA-Kernkorpus auf ihre sprachlichen Spezifika hin verglichen werden. ... mehr

Das Digitale Wörterbuch der deutschen Sprache (DWDS)
Das Digitale Wörterbuch der deutschen Sprache (DWDS) ist ein Langzeitvorhaben der BBAW. Es hat zum Ziel, ein großes lexikalisches Informationssystem zu erarbeiten, welches auf den Wörterbüchern der BBAW sowie auf großen Korpora beruht. Drei Arten von Korpora mit einem Umfang von etwa 2,5 Milliarden Textwörtern sind über die Web-Plattform abfragbar: Referenzkorpora, Zeitungskorpora und Spezialkorpora. ... mehr

Projekt „Dingler“
Das Projekt „Dingler Online“ an der Humboldt-Universität zu Berlin (Laufzeit 2007–2013) hat im Rahmen eines DFG-Projekts alle 375 Bändes des „Polytechnischen Journals“ (1820–1931) digitalisiert. Die Ressource (205 000 Seiten) ist im Volltext erfasst und vollständig in TEI-P5 annotiert. Mit Auslaufen des Projekts werden die Ressourcen über das CLARIN-Zentrum der BBAW in dem von CLARIN vorgeschlagenen Best-Practice Format für historische Korpora, dem DTA-Basisformat vorgehalten und sind damit nachhaltig als Forschungsdaten für die Nachnutzung verfügbar. Desweiteren stellt das CLARIN-Zentrum auch die Infrastruktur für die Onlinekomponenten des Projekts bereit.
Zu den Primärquellen im Repositorium an der BBAW ...

C4-Corpus
Das Korpus C4 ist eine gemeinsame Initiative des Digitalen Wörterbuchs der deutschen Sprache (DWDS), des Austrian Academy Corpus (AAC), des Korpus Südtirol und des Schweizer Textkorpus (CHTK). Das Korpus besteht aus Teilkorpora der einzelnen Partnerprojekte, die verteilt abgefragt werden; das heisst, dass der Korpuszusammenschluss virtuell ist. Erst die Treffer werden gemeinsam dargestellt.

Berliner Zeitung
Dieses Korpus umfasst alle online erschienenen Artikel der Berliner Zeitung aus der Zeit vom Januar 1994 bis Dezember 2005. Umfang: 252 Millionen Textwörter (Tokens) in 869.000 Artikeln. ... mehr

Der Tagesspiegel
Dieses Korpus enthält alle online erschienenen Artikel zwischen 1996 und Juni 2005. Umfang: 170 Millionen Textwörter (Tokens) in 350.000 Artikeln. ... mehr

DDR-Presseportal
Im Rahmen des Kurationsprojekts der F-AG 10 (Zeitgeschichte) werden gegenwärtig die Textressourcen des DDR-Presseportals CLARIN-konform aufbereitet. Das DDR-Presseportal besteht aus dem „neuen deutschland“ (ND, 1946–1990), der Berliner Zeitung (BZ, 1945–1993) sowie aus der Neuen Zeit (NZ, 1945–1994). Für ND und BZ konnten die Rechte für die Nutzung innerhalb der CLARIN-Infrastruktur in einer Kooperationsvereinbarung zwischen den Rechtegebern auf der einen Seite und den Rechtenehmern (BBAW, Zentrum für Zeithistorische Forschung, Berliner Staatsbibliothek) auf der anderen Seite eingeworben werden. Bereits jetzt ist es möglich, in allen Texten im Volltext zu recherchieren sowie weitere Analysen (Kookurrenzen, Zeitreihenstudien) vorzunehmen. Voraussetzung hierfür ist die Authentifizierung in CLARIN (entweder über einen Account auf clarin.eu oder mittels eines regulären Shibboleth-Accounts). Die Quellen selbst werden bis zum Ende der CLARIN-Konstruktionsphase in die CLARIN-Infrastruktur der BBAW integriert und darüber zugreifbar sein.

ReM – Referenzkorpus Mittelhochdeutsch
Das ReM-Korpus umfasst 398 Dokumente (2,5 Mio. Tokens) und ist mithilfe von DDC durchsuchbar. Auf einer eigenen Projektseite sind alle Dokumente in einer Lesefassung zugänglich. Weitere Informationen unter: https://www.linguistics.rub.de/rem/