CLARIN-Servicezentrum des Zentrums Sprache an der BBAW
CLARIN-Servicezentrum des Zentrums Sprache an der BBAW

Deutsches Textarchiv (DTA)

Header

Creator: Andreas Nolda
Date of creation: 2019-09-25
URL: http://hdl.handle.net/21.11120/0000-0005-0ABA-F
CMDI profile: clarin.eu:cr1:p_1386164908461
Name of collection: Deutsches Textarchiv (1600–1900)

Resources

Object description

General information

Resource name: Deutsches Textarchiv (DTA)
Short resource name: DTA
Resource description (English): The Deutsches Textarchiv provides a core inventory of German-language texts spanning multiple discplines and genres from the period of ca. 1600 to 1900. As a rule, in order to represent the historical state of the language as accurately as possible, the first printed edition of each work is used to provide the basis for its digitization. The electronic full-text corpus of the DTA is freely accessible via the Internet, and the entire collection can be searched independent of historical graphematic variance due to preprocessing with (computational) linguistic methods. All texts are available for download.
Resource description (German): Das Deutsche Textarchiv stellt einen disziplinen- und gattungsübergreifenden Grundbestand deutschsprachiger Texte aus dem Zeitraum von ca. 1600 bis 1900 bereit. Um den historischen Sprachstand möglichst genau abzubilden, werden als Vorlage für die Digitalisierung in der Regel die Erstausgaben der Werke zugrunde gelegt. Das elektronische Volltextkorpus des DTA ist über das Internet frei zugänglich und dank seiner Aufbereitung durch (computer-)linguistische Methoden schreibweisentolerant über den gesamten jeweils verfügbaren Bestand durchsuchbar. Sämtliche Texte stehen zum Download zur Verfügung.
Resource type: text corpus
Creation date: 2007–2019
Resource creator: Berlin-Brandenburg Academy of Sciences and Humanities (BBAW)
Jägerstraße 22/23, 10117 Berlin
Germany
homepage: http://www.bbaw.de
Funding project (1): Deutsches Textarchiv (DTA)
2007–2017
funding: DFG, Germany
homepage: http://www.deutschestextarchiv.de
Funding project (2): CLARIN-D
2012–2020
funding: BMBF, Germany
homepage: https://www.clarin-d.net
Licence: CC-BY-NC
Attribution text: Deutsches Textarchiv. Grundlage für ein Referenzkorpus der neuhochdeutschen Sprache. Herausgegeben von der Berlin-Brandenburgischen Akademie der Wissenschaften, Berlin 2019. URL: http://www.deutschestextarchiv.de/.
Licensor: Berlin-Brandenburg Academy of Sciences and Humanities (BBAW)
Jägerstraße 22/23, 10117 Berlin
Germany
homepage: http://www.bbaw.de

Corpus information

Modality: written
Language: German (Frühneuhochdeutsch, Neuhochdeutsch)
Time coverage: 1600–1900
Text class (1): narrative
Text class (2): news text
Text class (3): fiction
Text class (4): non-fiction
Extent: texts: 4671
tokens: 215168761
Anntation (1): text structure (DTABf)
Anntation (2): tokenization
Anntation (3): POS tagging (STTS)
Anntation (4): lemmatization
Anntation (5): orthographic normalization
Mimetype: application/tei+xml
Character encoding: UTF-8
XSL transformation, contact, imprint, privacy policy, 2023