Digitale Sprachwissenschaft

Kontakt:
    <korpuslinguistik@ids-...>
 
Leitung:
    Dr. Marc Kupietz <kupietz@ids-...>
 
Wissenschaftliche Mitarbeiter:
    Cyril Belica <belica@ids-...>
    Dr. Harald Lüngen <luengen@ids-...>
    Rainer Perkuhn <perkuhn@ids-...>
 
Kooperationen:
    siehe hier
 
Ehemalige am Korpusaufbau beteiligte Mitarbeiter des IDS:
    siehe hier
 
Studentische Hilfskräfte:

  • Caroline Iliadi
  • Ines Pisetta

Ausbau und Pflege der Korpora geschriebener Gegenwartssprache

Das Deutsche Referenzkorpus – DeReKo

die weltweit größte Sammlung deutschsprachiger Korpora als empirische Basis für die linguistische Forschung

Die Korpora geschriebener Gegenwartssprache des IDS

  • bilden mit 45,9 Milliarden Wörtern (Stand 07.11.2019) die weltweit größte linguistisch motivierte Sammlung elektronischer Korpora mit geschriebenen deutschsprachigen Texten aus der Gegenwart und der neueren Vergangenheit.
  • sind über COSMAS II und KorAP kostenlos abfragbar
  • enthalten belletristische, wissenschaftliche und populärwissenschaftliche Texte, eine große Zahl von Zeitungstexten sowie eine breite Palette weiterer Textarten und werden kontinuierlich weiterentwickelt.
  • werden im Hinblick auf Umfang, Variabilität, Qualität und Aktualität akquiriert und erlauben in der Nutzungsphase über COSMAS II und v.a. und KorAP die Komposition virtueller Korpora, die repräsentativ oder auf spezielle Aufgabenstellungen zugeschnitten sind.
  • enthalten ausschließlich urheberrechtlich abgesichertes Material.
  • Details zum DeReKo-Inhalt siehe Archiv

Aktuelle DeReKo-Erweiterungen (Stand 11/2019)

  • Mit der Akquisition vom GrenzEcho (ab 1999) haben wir nun auch ansatzweise den deutschen Sprachraum in Belgien in DeReKo abgebildet – DeReKo-2019-II
  • Im neuen Korpus KJL haben wir mit 35 Romanen vom Carlsen-Verlag angefangen, die Textsorte Kinder- und Jugendliteratur zu erschließen – DeReKo-2019-II.
  • Das neue Korpus „Digitale Bibliothek“ (DB) deckt ältere Literatur außerhalb der sonst üblichen Erfassungsgrenzen von DeReKo ab.
  • c't, iX, Le Monde Diplomatique (jew. seit 2017)  – DeReKo-2019-I
  • Publikumszeitschriften (Stern, HÖRZU, Frau im Spiegel, Brigitte, Essen und Trinken, …) – DeReKo-2018-I

Geplante Erweiterungen

  • Schemaliteratur
  • Wissenschafts- und Fachliteratur
  • Projektberichte
  • Erste Transkripte aus FOLK/DGD
  • MoCoDa2-Korpus

Aktuelle Veröffentlichungen zu DeReKo

  • Kupietz, Marc/Lüngen, Harald/Kamocki, Paweł/Witt, Andreas (2018): The German Reference Corpus DeReKo: New Developments – New Opportunities. In: Calzolari, Nicoletta/Choukri, Khalid/Cieri, Christopher/Declerck, Thierry/Goggi, Sara/Hasida, Koiti/Isahara, Hitoshi/Maegaard, Bente/Mariani, Joseph/Mazo, Hélène/Moreno, Asuncion/Odijk, Jan/Piperidis, Stelios/Tokunaga, Takenobu (Hrsg.): Proceedings of the Eleventh International Conference on Language Resources and Evaluation (LREC 2018). Miyazaki: European Language Resources Association (ELRA), 2018. S. 4353-4360.
  • Kupietz, Marc/Lüngen, Harald (2014): Recent Developments in DeReKo. In: Calzolari, Nicoletta et al. (eds.): Proceedings of the Ninth International Conference on Language Resources and Evaluation (LREC'14). Reykjavik: ELRA, 2378-2385.  http://www.lrec-conf.org/proceedings/lrec2014/pdf/842_Paper.pdf
  • Kupietz, Marc / Belica, Cyril / Keibel, Holger / Witt, Andreas (2010): The German Reference Corpus DeReKo: A primordial sample for linguistic research. In: Calzolari, Nicoletta et al. (eds.): Proceedings of the 7th conference on International Language Resources and Evaluation (LREC 2010). Valletta, Malta: European Language Resources Association (ELRA), 1848-1854.   http://www.lrec-conf.org/proceedings/lrec2010/pdf/414_Paper.pdf
  • Kupietz, Marc / Keibel, Holger (2009): The Mannheim German Reference Corpus (DeReKo) as a basis for empirical linguistic research. In Minegishi, Makoto / Kawaguchi, Yuji (Eds.): Working Papers in Corpus-based Linguistics and Language Education, No. 3. Tokyo: Tokyo University of Foreign Studies (TUFS), 53-59.   http://cblle.tufs.ac.jp/assets/files/publications/working_papers_03/section/053-059.pdf

Kontakt:

<korpuslinguistik@ids-...>