Description: | Das Dortmunder Chatkorpus (2009) wurde an der Technischen Universität Dortmund am Lehrstuhl für Linguistik der deutschen Sprache und Sprachdidaktik aufgebaut. Das Ziel des Korpusprojekts war es, eine Ressource für die Erforschung sprachlicher Besonderheiten und sprachlicher Variation in verschiedenen Nutzungskontexten internetbasierter Kommunikation zu schaffen. Das Korpus umfasst 478 Logfile-Dokumente mit ca. 130.000 Postings bzw. ca. 1 Mio. Tokens aus deutschen Chat-Mitschnitten, die die Nutzung von Chat-Software in verschiedenen Anwendungskontexten dokumentieren (Chat-Kommunikation im Freizeitbereich, Beratungschats, Chats im Kontext von Lernen und Lehren, moderierte Chats in Medienkontexten). Das Korpus ist in einem XML-Format (ChatXML) annotiert, das die folgenden Phänomene erfasst: (1) die grundlegende Struktur und Eigenschaften von Chat-Logfiles und -postings, (2) ausgewählte »netzsprachliche« Phänomene wie Emoticons, Aktionswörter, Adressierungen, Nicknames und Akronyme, (3) ausgesuchte Metadaten über die Chat-Nutzer. Seit 2005 wird das Korpus unter http://www.chatkorpus.tu-dortmund.de als XML-Version mit einer speziellen Such- und Auswertungssoftware zum Download bereitgestellt; außerdem können die Chat-Mitschnitte auch online eingesehen werden.
Im Rahmen eines CLARIN-D-Kurationsprojektes (2015–2016, http://de.clarin.eu/en/curation-project-1-3-german-philology) wurde das Chatkorpus in eine TEI-konforme Repräsentation überführt und kuration (POS-Tagging nach STTS-2.0-alpha, Strukturkorrekturen, Anonymisierung, Metadaten). Das Kernkorpus des Chatkorpus-2.1 steht als freie Ressource allgemein zur Verfügung. |
---|