The CLARIN service center of the Zentrum Sprache at the BBAW

The CLARIN service center of the Zentrum Sprache at the BBAW



Publications

Papers

  • Anja Maria Hamann, Kai Richarz (2019): „Die Zeichen der Zeit – sind digital.“ In: Im Zentrum Sprache. 2019 [Blog] [CLARIN-D-Blog]
  • Benjamin Fiechter, Susanne Haaf, Amelie Meister, Oliver Pfefferkorn (2019): Presseschau um die Jahrhundertwende: Neue historische Zeitungen im DTA (Blogartikel). 2019. [Blog].
  • Alexander Geyken, Matthias Boenig, Susanne Haaf, Bryan Jurish, Christian Thomas, Frank Wiegand (2018): Das Deutsche Textarchiv als Forschungsplattform für historische Daten in CLARIN. In: Henning Lobin, Roman Schneider, Andreas Witt (Hgg.): Digitale Infrastrukturen für die germanistische Forschung (= Germanistische Sprachwissenschaft um 2020, Bd. 6). Berlin/Boston, 2018, S. 219–248. [DOI].
  • Alexander Geyken, Susanne Haaf (2018): Integration heterogener historischer Textkorpora in das Deutsche Textarchiv. Strategien der Anlagerung und Perspektiven der Nachnutzung. In: Gessinger, J./ Redder, A./ Schmitz, U.: Korpuslinguistik. Duisburg 2018 (=Osnabrücker Beiträge zur Sprachtheorie 92), S. 175-192.
  • Piotr Banski, Susanne Haaf, Martin Mueller (2018): Lightweight Grammatical Annotation in the TEI: New Perspectives. In: Proceedings of the Eleventh International Conference on Language Resources and Evaluation (LREC 2018), 7.-12. Mai 2018, Miyazaki (Jp), S. 1795–1802. [PDF].
  • Frank Wiegand, Christian Thomas, Susanne Haaf, Alexander Geyken, Bryan Jurish, Matthias Boenig (2018): Recherchieren, Arbeiten und Publizieren im Deutschen Textarchiv: ein Praxisbericht. In: Zeitschrift für Germanistische Linguistik 46.1 (2018), S. 147–161. [DOI]
  • Thomas Eckart, Twan Goosen, Susanne Haaf, Hanna Hedeland, Oddrun Ohren, Dieter Van Uytvanck and Menzo Windhouwer (2017): Component Metadata Infrastructure Best Practices for CLARIN. Vortrag und Paper im Rahmen der CLARIN Annual Conference, Budapest (HU), 18.–20. September 2017. [PDF]
  • Susanne Haaf (2017): Das DTA-Basisformat in neuem Gewand (Blogartikel). In: Im Zentrum Sprache. Untersuchungen zur deutschen Sprache, 3. März 2017. [Blog].
  • Susanne Haaf, Christian Thomas (2017): Enabling the Encoding of Manuscripts within the DTABf. Extension and Modularization of the Format. In: Journal of the Text Encoding Initiative (jTEI) 10: 2015 Conference Issue. Published 2017. [Paper].
  • Bryan Jurish, Andreas Maletti, Uwe Springmann, Kay-Michael Würzner (Hrsg.): SIGFSM Workshop on Statistical NLP and Weighted Automata at the 54th Annual Meeting of the Association for Computational Linguistics: Proceedings, Berlin, 12. August, 2016.
  • Susanne Haaf (2016): Corpus Analysis based on Structural Phenomena in Texts. Exploiting TEI Encoding for Linguistic Research. In: Nicoletta Calzolari et al.: Proceedings of the Tenth International Conference on Language Resources and Evaluation (LREC 2016), 23.-28. Mai 2016, Portorož (Slovenia). Paris: ELRA, 2016. URL: [Paper]
  • Susanne Haaf, Christian Thomas (2016): Die Historischen Korpora des Deutschen Textarchivs als Grundlage für sprachgeschichtliche Forschungen. In: Holger Runow/Volker Harm/Levke Schiwek (Hgg.): Sprachgeschichte des Deutschen. Positionierungen in Forschung, Studium, Schule. Stuttgart 2016, S. 217–234. Vorabdruck: [PDF]
  • Bryan Jurish: Tools, Toys, and Filters (2016). In: Rechtsgeschichte – Legal History Rg 24 (2016), S. 347–348. URL: [DOI]
  • Bryan Jurish: Diachronic Collocations and Genre (2016). In: R. J. Whitt (Hrsg.): Diachronic Corpora, Genre, and Language Change. Nottingham, 8./9. April, 2016: Book of Abstracts, S. 22–24. URL: [PDF]
  • Bryan Jurish, Alexander Geyken, Thomas Werneke (2016): DiaCollo. Diachronen Kollokationen auf der Spur. In: DHd 2016. Modellierung – Vernetzung – Visualisierung. Leipzig, 7.–12. März, 2016: Book of Abstracts, S. 172–175. URL: [PDF]
  • Lothar Lemnitzer, Alexander Geyken: Semantic Modeling of Collocations for Lexicographic Purposes. In: Journal of Cognitive Science 16.3 (2015), S. 200–223.
  • Kay-Michael Würzner, Bryan Jurish: Dsolve. Morphological segmentation for German using conditional random fields. In: Cerstin Mahlow, Michael Piotrowski (Hrsg.): Fourth International Workshop on Systems and Frameworks for Computational Morphology (SFCM). Stuttgart, 17./18. September 2015: Proceedings, S. 94–103 (=Communications in Computer and Information Science 537). Draft: [PDF]
  • Kay-Michael Würzner, Bryan Jurish: Gramophone. A hybrid approach to grapheme-phoneme conversion. In: 12th International Conference on Finite State Methods and Natural Language Processing (FSMNLP). Düsseldorf, 22.-24. Juni 2015: Proceedings. [PDF]
  • Alexander Geyken, Thomas Gloning (2015): A living text archive of 15th–19th-century German. Corpus strategies, technology, organization. In: Jost Gippert, Ralf Gehrke (Hrsg.): Historical Corpora. Challenges and Perspectives. Tübingen 2015, S. 165–180.
  • Jurish, Bryan (2015): DiaCollo: On the trail of diachronic collocations. In Koenraad De Smedt (Hrsg.), Proceedings of the CLARIN Annual Conference 2015, Wroclaw, Polen, 14.-17. Oktober, S. 28-31, 2015. [PDF]
  • Jurish, Bryan and Henriette Ast (2015): Using an alignment-based lexicon for canonicalization of historical text. In: Jost Gippert and Ralf Gehrke (Eds.): Historical Corpora. Challenges and Perspectives. Tübingen 2015, S. 197–208.
  • Thomas, Christian and Frank Wiegand (2015): Making great work even better. Appraisal and digital curation of widely dispersed electronic textual resources (c. 15th–19th centuries) in CLARIN-D. In: Jost Gippert and Ralf Gehrke (Eds.): Historical Corpora. Challenges and Perspectives. Tübingen 2015, S. 181–196.
  • Geyken, Alexander and Thomas Gloning (2015): A living text archive of 15th-19th-century German. Corpus strategies, technology, organization. In: Jost Gippert and Ralf Gehrke (Eds.): Historical Corpora. Challenges and Perspectives. Tübingen 2015, S. 165–180.
  • Haaf, Susanne, Alexander Geyken and Frank Wiegand (2014–2015): The DTA “Base Format”: A TEI Subset for the Compilation of a Large Reference Corpus of Printed Text from Multiple Sources, In: Journal of the Text Encoding Initiative [Online], Issue 8 – PREVIEW | 2014–2015. [DOI: 10.4000/jtei.1114]
  • Goosen, Twan Menzo Windhouwer, Oddrun Ohren, Axel Herold, Thomas Eckart, Matej Durco and Oliver Schonefeld: CMDI 1.2: Improvements in the CLARIN Component Metadata Infrastructure. Poster and Short Paper at the CLARIN Annual Conference 2014, 23–25 Oct 2014 in Soesterberg (NL). [Paper].
  • Haaf, Susanne, Peter Fankhauser, Thorsten Trippel et al.: CLARIN’s Virtual Language Observatory (VLO) under scrutiny. The VLO taskforce of the CLARIN-D centres. Talk and Short Paper at the CLARIN Annual Conference 2014, 23–25 Oct 2014 in Soesterberg (NL). [Paper].
  • Haaf, Susanne and Matthias Schulz (2014): Historical Newspapers & Journals for the DTA. In: Language Resources and Technologies for Processing and Linking Historical Documents and Archives – Deploying Linked Open Data in Cultural Heritage – LRT4HDA. Proceedings of the workshop, held at the Ninth International Conference on Language Resources and Evaluation (LREC'14), May 26–31, 2014, Reykjavik (Iceland), pp. 50–54. [Online-Version]
  • Jurish, Bryan, Christian Thomas and Frank Wiegand (2014): Querying the Deutsches Textarchiv. In: Udo Kruschwitz, Frank Hopfgartner and Cathal Gurrin (Hg.): Proceedings of the Workshop MindTheGap 2014: Beyond Single-Shot Text Queries: Bridging the Gap(s) between Research Communities (co-located with iConference 2014, Berlin, 4. März, 2014), S. 25–30, 2014. [online-Versionen vom 5. März 2014]
  • Bryan Jurish, Kay-Michael Würzner: Word and Sentence Tokenization with Hidden Markov Models. In: Journal for Language Technology and Computational Linguistics (JLCL) 28.2 (2013), S. 61–83. [PDF]
  • Bryan Jurish, Kay-Michael Würzner: Multi-threaded composition of finite-state automata. In: 11th International Conference on Finite State Methods and Natural Language Processing, St Andrews, Scotland, 15.–17. Juli 2013: Proceedings, S. 81–89. URL: [PDF]
  • Neuber, Frederike and Christian Thomas (2013): Kurz vor dem Ziel: Das Kurationsprojekt 1 der F-AG 1 »Deutsche Philologie«. In: Clarin-D-Newsletter, Nummer 5, 2013, November, S. 29–32. [online-Version vom 25. November 2013]
  • Jurish, Bryan (2013): Canonicalizing the Deutsches Textarchiv. In: Perspektiven einer corpusbasierten historischen Linguistik und Philologie. Internationale Tagung des Akademienvorhabens „Altägyptisches Wörterbuch“ an der Berlin-Brandenburgischen Akademie der Wissenschaften, 12.–13. Dezember 2011, herausgegeben von Ingelore Hafemann, Berlin 2013, S. 235–244. [online-Version vom 8. August 2013]
  • Geyken, Alexander (2013): Wege zu einem historischen Referenzkorpus des Deutschen: das Projekt Deutsches Textarchiv. In: Perspektiven einer corpusbasierten historischen Linguistik und Philologie. Internationale Tagung des Akademienvorhabens „Altägyptisches Wörterbuch“ an der Berlin-Brandenburgischen Akademie der Wissenschaften, 12.–13. Dezember 2011, herausgegeben von Ingelore Hafemann, Berlin 2013, S. 221–234. [online-Version vom 8. August 2013]
  • Haaf, Susanne, Frank Wiegand and Alexander Geyken (2013): Measuring the Correctness of Double-Keying: Error Classification and Quality Control in a Large Corpus of TEI-Annotated Historical Text. In: Journal of the Text Encoding Initiative (jTEI) 4, 2013. [online-Version vom 26. März 2013]
  • Gloning, Thomas, Frederike Neuber, Thomas Stäcker, Stefanie Seim and Christian Thomas: Zwischenbericht des CLARIN–D Kurationsprojekts 1 der F-AG 1; Berichtszeitraum 01.09.2012–28.02.2013. (Work Report of the CLARIN-D Curation Project led by WG-1 for the Project Period of 1 Sept 2012 to 28 Feb 2013.) March 2013. [Report].
  • Jurish, Bryan, Marko Drotschmann and Henriette Ast (2013): Constructing a canonicalized corpus of historical German by text alignment. In Paul Bennett, Martin Durrell, Silke Scheible and Richard J. Whitt (Eds.), New Methods in Historical Corpora, volume 3 of Corpus Linguistics and Interdisciplinary Perspectives on Language (CLIP), Tübingen 2013, pp. 221-234.
  • Alexander Geyken, Susanne Haaf, Bryan Jurish, Matthias Schulz, Christian Thomas, Frank Wiegand: DTA-/CLARIN-D-Konferenz und -Workshops: Historische Textkorpora für die Geistes- und Sozialwissenschaften. Fragestellungen und Nutzungsperspektiven. In: CLARIN-D-Newsletter 4 (2013), S. 14/15. [PDF]
  • Bryan Jurish: Finite-state Canonicalization Techniques for Historical German. PhD thesis, Universität Potsdam, 2012. [URN]
  • Frederike Neuber, Christian Thomas: Vorstellung des Kurationsprojekts 1 der Clarin-D-FAG 1 „Deutsche Philologie“. In: CLARIN-D-Newsletter 3 (2012), S. 11–13. [PDF]
  • Alexander Geyken, Thomas Gloning, Thomas Stäcker: CLARIN-D-Panel bei der DH 2012 in Hamburg. Ein Panel zu „Large Historical Reference Corpora of German“ an der Uni Hamburg. In: CLARIN-D-Newsletter 2 (2012), S. 13/14. [PDF]
  • Alexander Geyken, Susanne Haaf, Marc Kupietz, Harald Lüngen, Andreas Witt: Text Corpora. In: CLARIN-D AP5: CLARIN-D User Guide. Version: 1.0.1, Berlin 2012. [online]
  • Alexander Geyken, Susanne Haaf, Christian Thomas, Frank Wiegand, Thomas Stäcker, Thomas Gloning: Compiling large historical reference corpora of German. Quality Assurance, Interoperability and Collaboration in the Process of Publication of Digitized Historical Prints. In: Digital Humanities Conference, Hamburg, 16.–20. Juli 2012: Book of Abstracts. [online]
  • Alexander Geyken, Susanne Haaf, Bryan Jurish, Matthias Schulz, Christian Thomas, Frank Wiegand: TEI und Textkorpora. Fehlerklassifikation und Qualitätskontrolle vor, während und nach der Texterfassung im Deutschen Textarchiv. In: Jahrbuch für Computerphilologie online 9, 2012. [online]
  • Axel Herold, Lothar Lemnitzer: Introduction and background. In: CLARIN-D AP5: CLARIN-D User Guide. Version: 1.0.1, Berlin 2012. [online]
  • Henrik Dittmann, Matej Durco, Alexander Geyken, Tobias Roth, Kai Zimmer: Korpus C4: A distributed corpus of German varieties. In: Schmidt, Thomas and Kai Wörner (eds.), Multilingual Corpora and Multilingual Corpus Analysis, 2012. S. 339–346.
  • Herold, Axel, Lothar Lemnitzer and Alexander Geyken: Integrating lexical resources through an aligned lemma list. In Christian Chiarcos, Sebastian Nordhoff and Sebastian Hellmann (Eds.), Linked data in linguistics, Berlin/Heidelberg 2012, S. 35-44.
  • Beißwenger, Michael, Maria Ermakova and Alexander Geyken, Lothar Lemnitzer, Angelika Storrer: DeRiK: A German Reference Corpus of Computer-Mediated Communication. In Proceedings of Digital Humanities Conference, Hamburg 2012.
  • Geyken, Alexander, Susanne Haaf and Frank Wiegand: The DTA ‘base format’: A TEI-Subset for the Compilation of Interoperable Corpora. In 11th Conference on Natural Language Processing (KONVENS) – Empirical Methods in Natural Language Processing, Proceedings of the Conference (LThist 2012 Workshop). Edited by Jeremy Jancsary. Wien 2012, pp. 383-391 (= Schriftenreihe der Österreichischen Gesellschaft für Artificial Intelligence 5). [Paper].
  • Didakowski, Jörg, Lothar Lemnitzer and Alexander Geyken: Automatic example sentence extraction for a contemporary German dictionary. In Proceedings of the EURALEX, Oslo 2012, pp. 343-349.
  • Beißwenger, Michael, Maria Ermakova, Alexander Geyken, Lothar Lemnitzer and Angelika Storrer: A TEI schema for the Representation of the Computer-mediated Communication. In Journal of the Text Encoding Initiative (jtei) 3 (2012). [Paper].
  • Alexander Geyken: Statistische Wortprofile zur schnellen Analyse der Syntagmatik in Textkorpora. In: Andrea Abel, Renata Zanin (Hrsg.): Korpora in Lehre und Forschung. Bozen 2011, S. 115–137.
  • Alexander Geyken: Die dynamische Verknüpfung von Kollokationen mit Korpusbelegen und deren Repräsentation im DWDS-Wörterbuch. Datenmodellierung für Internetwörterbücher. In: OPAL 2 (2011), S. 9–20.
  • Alexander Geyken, Susanne Haaf, Bryan Jurish, Matthias Schulz, Jakob Steinmann, Christian Thomas und Frank Wiegand: Das Deutsche Textarchiv: Vom historischen Korpus zum aktiven Archiv. In: Silke Schomburg, Claus Leggewie, Henning Lobin und Cornelius Puschmann (Hrsg.): Digitale Wissenschaft. Stand und Entwicklung digital vernetzter Forschung in Deutschland. Köln, 20./21. September 2010: Beiträge der Tagung. 2., ergänzte Fassung. hbz, 2011, S. 157–161. [PDF]
  • Bryan Jurish: More than Words. Using Token Context to Improve Canonicalization of Historical German. In: Journal for Language Technology and Computational Linguistics (JLCL) 25.1 (2010). [PDF]
  • Bryan Jurish: Comparing canonicalizations of historical German text. In: 11th Meeting of the ACL Special Interest Group on Computational Morphology and Phonology (SIGMORPHON): Proceedings, ACL 2010, S. 72–77. [PDF]
  • Wolfgang Klein, Alexander Geyken: Das Digitale Wörterbuch der Deutschen Sprache (DWDS). In: U. Heid, S. Schierholz, W. Schweickard et al.: Lexicographica. Berlin/New York 2010, S. 79–93.
  • Claudia Kunze, Lothar Lemnitzer: Lexical-semantic and conceptual relations in GermaNet. In: Petra Storjohann (Hrsg.): Lexical-semantic relations. Theoretical and practical perspectives, Amsterdam 2010, S. 163–183 (=Lingvisticae Investigationes Supplementa 28).
  • Bryan Jurish: Efficient online k-best lookup in weighted finite-state cascades. In: Thomas Hanneforth, Gisbert Fanselow (Hrsg.): Language and Logos. Studies in Theoretical and Computational Linguistics, Berlin 2010, S. 313–327 (=Studia grammatica 72).

Presentations

  • Andreas Nolda: Standoff-Annotation von Lernertexten: Die Dulko-Toolsammlung für den EXMARaLDA-Partitureditor. Presentation at the workshop “Korpusbasierte Textanalysen im Kontext von Bildung, Wissenschaft und Kultur – Schreibkompetenzen von Studierenden und adäquate Fördermaßnahmen”, 9 May 2019, Philipps-Universität Marburg (DE).
  • Susanne Haaf: Text Type Classification for the Historical DTA Corpus. Presentation at the CLARIN-NeDiMAH Workshop Exploring Historical Sources with Language Technology: Results and Perspectives, 8-9 Dec 2014, The Hague (NL).
  • Bryan Jurish, Kai Zimmer: Webservices des Zentrums Sprache an der BBAW. (The Webservices at the Center of Language of the BBAW) Presentation at the 1st ifDHb-Circuit at the BBAW Berlin, 1 Sept 2014, Berlin (DE).
  • Kathrin Pindl, Christopher Kolbeck, Susanne Haaf: Vom Archiv ins WWW – Digitale Korpora und (sprach-)historische Synergien. (Digital Corpora and Synergies in (language-)historic Disciplines.) Presentation at the Conference Offene Archive 2.1 – Social media im deutschen Sprachraum und im internationalen Kontext, 3–4 April 2014, Stuttgart (DE).
  • Christian Thomas: The CLARIN-D Service Centre at the Berlin-Brandenburg Academy of Sciences and Humanities (BBAW): Corpora, Tools, Methods, and Best Practices for text-based interdisciplinary research. Presentation at the NeDiMAH-Workshop Using Large Scale Text Collections for Research, 1-2 April 2014, Wuerzburg (DE).
  • Alexander Geyken: Einführung in CLARIN. (Introduction to CLARIN.) Presentation at the constituent Meetings of CLARIN-D's Working Groups 9 (Modern History), 27 Aug 2014, Bielefeld (DE), and 10 (Contemporary History), 26 Sept 2014, Goettingen (DE).
  • Alexander Geyken: Wissenschaftliche Sammlungen aus Sicht des Zentrum Sprache der BBAW. (Scholarly Collections seen from the perspective of the Language Center at the BBAW.) Presentation at the DARIAH-Workshop Stakeholder Gremium wissenschaftliche Sammlungen, 23 July 2014, Goettingen (DE).
  • Alexander Geyken, Thomas Gloning, Thomas Stäcker, et al.: Compiling large historical reference corpora of German: Quality Assurance, Interoperability and Collaboration in the Process of Publication of Digitized Historical Prints. Panel at the Digital Humanities Conference, Hamburg (DE) 2012.
  • Michael Beißwenger, Lothar Lemnitzer: Processing and Representing Computer-Mediated Discourse: An Open Issue in Corpus Linguistics. Presentation at the Workshop on Automatic Processing of Non-Standard Data Sources in Corpus-Based Research, Köln, 31 Aug 2012
  • Axel Herold, Norbert Schrader, Alexander Geyken, Lothar Lemnitzer: Integrating ¹DWB into a digital lexical information system. Presentation at the 6th International Conference on Historical Lexicography and Lexicology, July 2012, Jena (DE).
  • Kay-Michael Würzner, Bryan Jurish, Alexander Geyken, Lothar Lemnitzer: Kollaborative Erstellung eines annotierten Korpus als Grundlage für die Anwendung statistischer Ansätze der automatischen Sprachverarbeitung auf internetbasierte Kommunikation. (Collaborative Preparation of an Annotated Corpus as a Basis for the Application of Statistical Language Processing Methods for Internet-based Communication.) Presentation at the Workshop Webkorpora in Linguistik und Sprachforschung, 27-28 Sept 2012, Mannheim (DE).
  • Alexander Geyken: TEI for written historical corpora: why and how? CLARIN, Standards and the Text Encoding Initiative. Preconference Workshop of the TEI Conference and Members' Meeting, 20 Oct 2013, Rome (IT).
  • Axel Herold: Metadata for CMC documents. Talk at the panel Computer-mediated communication in TEI. What lies ahead? at the TEI Conference and Members' Meeting, Oct 2013, Rome (IT).
  • Frank Wiegand: Integration of Wikisource data sets into the CLARIN-D Infrastructure. Showcase at the M24-workshop of CLARIN-D, 27-28 June 2013, Nijmegen (NL)
  • Frederike Neuber: Curation and integration of historical text resources of the 15th-19th century into the CLARIN-D Infrastructure. Poster and Demo at the M24-workshop of CLARIN-D, 27-28 June 2013, Nijmegen (NL)
  • Frank Wiegand: Integration von Wikisourcedatensätzen in die CLARIN-D Infrastruktur. (Integration of Wikisource data sets into the CLARIN-D infrastructure.) Poster and Demo at the M24-workshop of CLARIN-D, 27-28 June 2013, Nijmegen (NL).
  • Axel Herold: Anforderungen an eine inhaltliche Bewertung von Sprachressourcen auf der Basis nicht-technischer Metadaten. (Requirements for the evaluation of language resources with regard to their contents on the basis of non-technical metadata.) Presentation at the CLARIN-Dissemination-Workshop, 30 Sept 2013, Leipzig (DE).
  • Christian Thomas: Integration von Wikisource-Texten in die verteilte Korpusinfrastruktur von CLARIN-D. (Integration of Wikisource texts into the shared corpus infrastructure of CLARIN-D.) Presentation at the 1st Wikisource Workshop, 18-20 Oct 2013, Leipzig (DE).

Workshops and Classes

  • Andreas Nolda: Einführung in die korpuslinguistische Arbeit mit EXMARaLDA (Dulko). Hands-on workshop, 10 May 2019, Philipps-Universität Marburg (DE).
  • Susanne Haaf, Christian Thomas: Historical Text Corpora for the Humanities and Social Sciences. Digitization, Annotation, Quality Assurance and Analysis. Workshop at the Joint ESU DG K & T and CLARIN-D summer university, 22-26 July 2014, Leipzig (DE).
  • Matthias Boenig, Susanne Haaf, Christian Thomas: Aufbau von Sprachressourcen: Nutzung von Angeboten des Deutschen Textarchivs. Workshop im DHnet Jena in Kooperation mit dem Laboratorium Aufklärung, 14. bis 16. Januar 2016, Jena (DE).