CLARIN-Servicezentrum des Zentrums Sprache an der BBAW
CLARIN-Servicezentrum des Zentrums Sprache an der BBAW

Dortmund Chat Corpus 2.1

Header

Creator:Axel Herold, CLARIN-D
Date of creation:2017-07-03
URL:http://hdl.handle.net/11858/00-203Z-0000-002D-EC85-5
CMDI profile:clarin.eu:cr1:p_1357720977528
Name of collection:Dortmunder Chatkorpus 2.1

Resources

Speech corpus description

General information

Resource name:Dortmund Chat Corpus 2.1
Resource title:Dortmund Chat Corpus 2.1 (2017)
Resource class:SpeechCorpus
Version:2.1
Life cycle status:production
Publication date:2017-07-03
Time coverage:2000–2006
Location:Germany (DE)
Modalities:written (chat logfiles)
Description:Das Dortmunder Chatkorpus (2009) wurde an der Technischen Universität Dortmund am Lehrstuhl für Linguistik der deutschen Sprache und Sprachdidaktik aufgebaut. Das Ziel des Korpusprojekts war es, eine Ressource für die Erforschung sprachlicher Besonderheiten und sprachlicher Variation in verschiedenen Nutzungskontexten internetbasierter Kommunikation zu schaffen. Das Korpus umfasst 478 Logfile-Dokumente mit ca. 130.000 Postings bzw. ca. 1 Mio. Tokens aus deutschen Chat-Mitschnitten, die die Nutzung von Chat-Software in verschiedenen Anwendungskontexten dokumentieren (Chat-Kommunikation im Freizeitbereich, Beratungschats, Chats im Kontext von Lernen und Lehren, moderierte Chats in Medienkontexten). Das Korpus ist in einem XML-Format (ChatXML) annotiert, das die folgenden Phänomene erfasst: (1) die grundlegende Struktur und Eigenschaften von Chat-Logfiles und -postings, (2) ausgewählte »netzsprachliche« Phänomene wie Emoticons, Aktionswörter, Adressierungen, Nicknames und Akronyme, (3) ausgesuchte Metadaten über die Chat-Nutzer. Seit 2005 wird das Korpus unter http://www.chatkorpus.tu-dortmund.de als XML-Version mit einer speziellen Such- und Auswertungssoftware zum Download bereitgestellt; außerdem können die Chat-Mitschnitte auch online eingesehen werden. Im Rahmen eines CLARIN-D-Kurationsprojektes (2015–2016, http://de.clarin.eu/en/curation-project-1-3-german-philology) wurde das Chatkorpus in eine TEI-konforme Repräsentation überführt und kuration (POS-Tagging nach STTS-2.0-alpha, Strukturkorrekturen, Anonymisierung, Metadaten). Das Kernkorpus des Chatkorpus-2.1 steht als freie Ressource allgemein zur Verfügung.

Technical information

Character Encoding:UTF-8
Language Scripts:
  • Latin (Latn)
MIME types:
  • text/plain
  • application/xml

Resource Context

Creators:
  • Angelika Storrer, Michael Beißwenger (TU Dortmund): project leader of the original resource
  • Michael Beißwenger, Angelika Storrer, Eric Ehrhardt, Axel Herold, Harald Lüngen (CLARIN-D): curator
  • Berlin-Brandenburg Academy of Sciences and Humanities (CLARIN-D): hosting institution
Access:
availability: free; legal restrictions may arise from data protection legislation
distribution: This resource can be downloaded from the CLARIN-D Repository at the BBAW at http://clarin.bbaw.de/
licence: CreativeCommons Attribution 4.0 International (CC BY 4.0)
contact: Berlin-Brandenburgische Akademie der Wissenschaften, DWDS, Jägerstraße 22/23, D-10117 Berlin
dwds@dwds.de

Subject Languages

Number of Languages:1
Germandeu

Speech Corpus specific properties

Modalities:speech
Media type:text
Multilinguality:Monolingual
Annotation types:
  • Lemma
  • Word form
  • Speaker turn
  • Text structure encoding
Size:
  • 999833 (token)
  • 131033 (posting)
XSL transformation, contact, imprint, privacy policy, 2023