Das CLARIN-Servicezentrum am Zentrum Sprache der
BBAW konzentriert sich in seiner Korpusarbeit schwerpunktmäßig auf
historische Korpora vom 16. bis 20. Jahrhundert.
Die Korpora sind, soweit es das Urheberrecht erlaubt, mit offenen
Lizenzen versehen und
somit als Forschungsdaten nachnutzbar. Alle Korpora sind gemäß
anerkannter Standards annotiert (TEI/P5, CMDI); auf sie kann über das
Repositorium
zugegriffen werden.
Die Korpora des CLARIN-Servicezentrums der BBAW sind
Deutsches Textarchiv (DTA)
Das Deutsche Textarchiv (DTA) erarbeitet einen disziplinen- und
gattungs-übergreifenden Grundbestand deutschsprachiger Texte aus dem
Zeitraum von ca. 1600 bis 1900 und hat zum Ziel, über
Eigendigitalisierungen sowie über Kooperationen die Grundlage für ein
Referenzkorpus des Neuhochdeutschen zu schaffen. Sämtliche Texte sind
schreibweisentolerant durchsuchbar, werden in einer Text/Bild-Ansicht
dargestellt und stehen zum Download zur Verfügung.
... mehr
DTAE – DTA-Erweiterungen
Wissenschaftlerinnen und Wissenschaftler, die im Rahmen ihrer Arbeiten Texte des späten 16. bis frühen 20. Jahrhunderts bearbeiten und digitalisieren, haben die Möglichkeit, diese Texte im Modul DTAE zu veröffentlichen. Auf diese Weise wird das DTA-Kernkorpus durch Primärtexte aus anderen Projektkontexten fortlaufend ergänzt, um die Vielfalt und Qualität des DTA weiter zu erhöhen. Darüber hinaus können diese angelagerten Texte als Spezialkorpora mit dem DTA-Kernkorpus auf ihre sprachlichen Spezifika hin verglichen werden.
... mehr
Das Digitale Wörterbuch der deutschen Sprache (DWDS)
Das Digitale Wörterbuch der deutschen Sprache (DWDS) ist ein
Langzeitvorhaben der BBAW. Es hat zum Ziel, ein großes lexikalisches
Informationssystem zu erarbeiten, welches auf den Wörterbüchern der BBAW
sowie auf großen Korpora beruht. Drei Arten von Korpora mit einem
Umfang von etwa 2,5 Milliarden Textwörtern sind über die Web-Plattform
abfragbar: Referenzkorpora, Zeitungskorpora und Spezialkorpora.
... mehr
Projekt „Dingler“
Das Projekt „Dingler Online“ an der Humboldt-Universität zu Berlin
(Laufzeit 2007–2013) hat im Rahmen eines DFG-Projekts alle 375 Bändes
des „Polytechnischen Journals“ (1820–1931) digitalisiert. Die Ressource
(205 000 Seiten) ist im Volltext erfasst und vollständig in TEI-P5
annotiert. Mit Auslaufen des Projekts werden die Ressourcen über das
CLARIN-Zentrum der BBAW in dem von CLARIN vorgeschlagenen Best-Practice
Format für historische Korpora, dem
DTA-Basisformat vorgehalten
und sind damit nachhaltig als Forschungsdaten für die Nachnutzung
verfügbar. Desweiteren stellt das CLARIN-Zentrum auch die Infrastruktur
für die Onlinekomponenten des Projekts bereit.
Zu den Primärquellen im Repositorium an der BBAW ...
C4-Corpus
Das Korpus C4 ist eine gemeinsame Initiative des Digitalen Wörterbuchs der deutschen Sprache (DWDS), des Austrian Academy Corpus (AAC), des Korpus Südtirol und des Schweizer Textkorpus (CHTK). Das Korpus besteht aus Teilkorpora der einzelnen Partnerprojekte, die verteilt abgefragt werden; das heisst, dass der Korpuszusammenschluss virtuell ist. Erst die Treffer werden gemeinsam dargestellt.
Berliner Zeitung
Dieses Korpus umfasst alle online erschienenen Artikel der Berliner Zeitung aus der Zeit vom Januar 1994 bis Dezember 2005. Umfang: 252 Millionen Textwörter (Tokens) in 869.000 Artikeln.
... mehr
Der Tagesspiegel
Dieses Korpus enthält alle online erschienenen Artikel zwischen 1996 und Juni 2005. Umfang: 170 Millionen Textwörter (Tokens) in 350.000 Artikeln.
... mehr
DDR-Presseportal
Im Rahmen des Kurationsprojekts der F-AG 10 (Zeitgeschichte) werden gegenwärtig die Textressourcen des
DDR-Presseportals CLARIN-konform aufbereitet. Das DDR-Presseportal besteht aus dem „neuen deutschland“ (
ND, 1946–1990), der Berliner Zeitung (
BZ, 1945–1993) sowie aus der Neuen Zeit (
NZ, 1945–1994). Für ND und BZ konnten die Rechte für die Nutzung innerhalb der CLARIN-Infrastruktur in einer Kooperationsvereinbarung zwischen den Rechtegebern auf der einen Seite und den Rechtenehmern (BBAW, Zentrum für Zeithistorische Forschung, Berliner Staatsbibliothek) auf der anderen Seite eingeworben werden. Bereits jetzt ist es möglich, in allen Texten im Volltext zu recherchieren sowie weitere Analysen (Kookurrenzen, Zeitreihenstudien) vorzunehmen. Voraussetzung hierfür ist die Authentifizierung in CLARIN (entweder über einen Account auf clarin.eu oder mittels eines regulären Shibboleth-Accounts). Die Quellen selbst werden bis zum Ende der CLARIN-Konstruktionsphase in die CLARIN-Infrastruktur der BBAW integriert und darüber zugreifbar sein.
ReM – Referenzkorpus Mittelhochdeutsch
Das ReM-Korpus umfasst 398 Dokumente (2,5 Mio. Tokens) und ist
mithilfe von DDC durchsuchbar. Auf einer
eigenen Projektseite sind
alle Dokumente in einer Lesefassung zugänglich. Weitere Informationen unter:
https://www.linguistics.rub.de/rem/