IDS-Logo
Startseite : : Organisationsstruktur : : Direktion : : Korpuslinguistik Korpuslinguistik : : Projekte : : Korpusausbau : : Verfügbarkeit
VerfügbarkeitVerfügbarkeitVerfügbarkeitVerfügbarkeitVerfügbarkeitVerfügbarkeit
Direktion und zentrale Forschung

Kontakt:
    <korpuslinguistik@ids-...>
 
Leitung:
    Dr. Marc Kupietz <kupietz@ids-...>
 
Wissenschaftliche Mitarbeiter:
    Cyril Belica <belica@ids-...>
    Dr. Harald Lüngen <luengen@ids-...>
    Rainer Perkuhn <perkuhn@ids-...>
 
Kooperationen:
    siehe hier
 
Ehemalige am Korpusaufbau beteiligte Mitarbeiter des IDS:
    siehe hier
 
Wissenschaftliche Hilfskräfte:

  • Xiaoxi Pang

 
Studentische Hilfskräfte:

  • Anna Schächtele
  • Katharina Sowa
  • Jani Takhsha

 

 

Korpora der geschriebenen Sprache


Verfügbarkeit

Download

Aufgrund urheberrechtlicher Bestimmungen und vertraglicher Vereinbarungen mit den Rechteinhabern dürfen wir bedauerlicherweise nur wenige Korpora zum Download anbieten. Siehe auch FAQ: "Gibt es Bedingungen, unter denen Ausnahmen möglich sind?" Für die wissenschaftliche Nutzung ist es dem IDS gestattet, nach Unterzeichnung einer Lizenzvereinbarung, folgende Korpora der geschriebenen Sprache kostenlos abzugeben:

Außerdem stehende folgende Korpora auf Anfrage jeweils unter der CC-BY-SA-Lizenz zum Download zu Verfügung (s. Download-Server)

  • Reden und Interviews-Korpus (rei)
  • Wikipedia-Artikel und -Diskussionen - Aufbereitung 2011 (wpd11 und wdd11)
    (Verschiedene Sprachen; Aufbereitung in Kooperation mit dem Projekt EuroGr@mm, siehe [1])
  • Wikipedia-Artikel und -Diskussionen - Aufbereitung 2013 (wpd13 und wdd13)
    (siehe [2], insgesamt knapp 1 Milliarde Tokens)
    • im Format I5
    • POS-Annotationen (TreeTagger) zu den I5-Dateien im Standoff-Format

[1] Noah Bubenhofer, Stefanie Haupt, Horst Schwinn (2011): A Comparable Corpus of the Wikipedia: From Wiki Syntax to POS Tagged XML. Hamburg Working Paper in Multilingualism, 96 B
[2] Eliza Margaretha, Harald Lüngen (in Vorbereitung)

zum Überblick