Andreas Nolda
2019-09-25
http://hdl.handle.net/21.11120/0000-0005-0ABA-F
clarin.eu:cr1:p_1386164908461
Deutsches Textarchiv (1600–1900)
LandingPage
http://hdl.handle.net/21.11120/0000-0005-0ABD-C
SearchPage
https://www.dwds.de/r?q=&corpus=dta
SearchService
http://dspin.dwds.de:8088/ddc-sru/dta/
Deutsches Textarchiv (DTA)
DTA
The Deutsches Textarchiv
provides a core inventory of German-language texts spanning multiple
discplines and genres from the period of ca. 1600 to 1900. As a
rule, in order to represent the historical state of the language as
accurately as possible, the first printed edition of each work is
used to provide the basis for its digitization. The electronic
full-text corpus of the DTA is freely accessible via the Internet,
and the entire collection can be searched independent of historical
graphematic variance due to preprocessing with (computational)
linguistic methods. All texts are available for download.
Das Deutsche Textarchiv stellt einen
disziplinen- und gattungsübergreifenden Grundbestand
deutschsprachiger Texte aus dem Zeitraum von ca. 1600 bis 1900
bereit. Um den historischen Sprachstand möglichst genau abzubilden,
werden als Vorlage für die Digitalisierung in der Regel die
Erstausgaben der Werke zugrunde gelegt. Das elektronische
Volltextkorpus des DTA ist über das Internet frei zugänglich und
dank seiner Aufbereitung durch (computer-)linguistische Methoden
schreibweisentolerant über den gesamten jeweils verfügbaren Bestand
durchsuchbar. Sämtliche Texte stehen zum Download zur Verfügung.
text corpus
2007
2019
Berlin-Brandenburg Academy of Sciences and Humanities (BBAW)
BBAW
http://www.bbaw.de
Jägerstraße 22/23, 10117 Berlin
DE
Deutsches Textarchiv (DTA)
DTA
http://www.deutschestextarchiv.de
nationalFunds
DFG
DE
2007
2017
CLARIN-D
https://www.clarin-d.net
nationalFunds
BMBF
DE
2012
2020
public
CC-BY-NC
Deutsches Textarchiv. Grundlage
für ein Referenzkorpus der neuhochdeutschen Sprache. Herausgegeben
von der Berlin-Brandenburgischen Akademie der Wissenschaften,
Berlin 2019. URL: http://www.deutschestextarchiv.de/.
Berlin-Brandenburg Academy of Sciences and Humanities (BBAW)
BBAW
http://www.bbaw.de
Jägerstraße 22/23, 10117 Berlin
DE
website
http://deutschestextarchiv.de/doku/basisformat/
de
The DTA-Basisformat (DTABf) is a TEI format for historical
texts.
true
internal validation
formal
automatic
full
http://www.deutschestextarchiv.de/basisformat.rng
Berlin-Brandenburg Academy of Sciences and Humanities (BBAW)
BBAW
http://www.bbaw.de
Jägerstraße 22/23, 10117 Berlin
DE
true
internal validation
content
interactive
partial
http://deutschestextarchiv.de/dtaq
Berlin-Brandenburg Academy of Sciences and Humanities (BBAW)
BBAW
http://www.bbaw.de
Jägerstraße 22/23, 10117 Berlin
DE
monolingual
de
German
other
Frühneuhochdeutsch
other
Neuhochdeutsch
writtenLanguage
4671
texts
215168761
tokens
mixed
1600–1900
narrative
news text
fiction
non-fiction
application/tei+xml
UTF-8
structuralAnnotation
paragraph
other
DTABf
manual
tokenization
sentence
word
automatic
posTagging
word
STTS
automatic
lemmatization
word
automatic
other
word
automatic
orthographic normalization