IDS-Logo
Startseite : : Organisationsstruktur : : Direktion : : Korpuslinguistik Korpuslinguistik : : Projekte : : Korpusausbau : : Verfügbarkeit
VerfügbarkeitVerfügbarkeitVerfügbarkeitVerfügbarkeitVerfügbarkeitVerfügbarkeit
Direktion und zentrale Forschung

Kontakt:
    <korpuslinguistik@ids-...>
 
Leitung:
    Dr. Marc Kupietz <kupietz@ids-...>
 
Wissenschaftliche Mitarbeiter:
    Cyril Belica <belica@ids-...>
    Dr. Harald Lüngen <luengen@ids-...>
    Rainer Perkuhn <perkuhn@ids-...>
 
Kooperationen:
    siehe hier
 
Ehemalige am Korpusaufbau beteiligte Mitarbeiter des IDS:
    siehe hier
 
Studentische Hilfskräfte:

  • Anna Schächtele
  • Jani Takhsha

 

 

Korpora der geschriebenen Sprache


Verfügbarkeit

Der weitaus größte Teil von DeReKo kann für nicht-kommerzielle Zwecke kostenlos mit Hilfe von COSMAS II durchsucht und analysiert werden. Zum Download dürfen wir allerdings aufgrund urheberrechtlicher Bestimmungen und vertraglicher Vereinbarungen mit den Rechteinhabern bedauerlicherweise nur eigige Teilkorpora anbieten. Siehe auch FAQ: "Gibt es Bedingungen, unter denen Ausnahmen möglich sind?"

Mit Lizenzvereinbarung

Für die wissenschaftliche Nutzung ist es dem IDS gestattet, nach Unterzeichnung einer Lizenzvereinbarung, folgende Korpora der geschriebenen Sprache kostenlos abzugeben:

Bitte schicken Sie bei Interesse eine Anfrage per E-Mail an Frau Petra Brecht.

Download-Server

Außerdem stehende folgende Korpora jeweils unter der CC-BY-SA-Lizenz zum Download zu Verfügung

  • Reden und Interviews-Korpus (rei)
  • Wikipedia-Korpora
    Aufbereitung 2011 in Kooperation mit dem Projekt EuroGr@mm [1],
    Aufbereitung 2013 und 2015 in Kooperation mit dem Programmbereich Forschungsinfrastrukturen [2].

Deutschsprachige Wikipedia - Verfügbare Files 2011-2015 (Encoding ISO-8859-1)
Jahr WP-Teilkorpus I5 WikiXML TreeTagger
Standoff
2011 Artikel wpd11.xces.bz2 -/- -/-
Artikeldiskussionen wdd11.xces.bz2
2013 Artikel wpd13.i5.xml.bz2 dewikixml-20130728-articles.tar.gz wpd13.tt.xml.bz2
Artikeldiskussionen wdd13.i5.xml.bz2 dewikixml-20130728-discussions.tar.gz wdd13.tt.xml.bz2
Artikel-Sample wpd13_sample.i5.xml.bz2 -/- -/-
Artikeldiskussionen-Sample wdd13_sample.i5.xml.bz2
2015 Artikel wpd15.i5.xml.bz2 wpd15.wikixml.tar.gz wpd15.tt.xml.bz2
Artikeldiskussionen wdd15.i5.xml.bz2 wdd15.wikixml.tar.gz wdd15.tt.xml.bz2
Nutzerdiskussionen wud15.i5.xml.bz2 wud15.wikixml.tar.gz wud15.tt.xml.bz2
Artikel-Sample wpd15_sample.i5.xml.bz2 -/- -/-
Artikeldiskussionen-Sample wdd15_sample.i5.xml.bz2
Nutzerdiskussionen-Sample wud15_sample.i5.xml.bz2


Fremdsprachige Wikipedia 2013 - Verfügbare Files (Format I5, Encoding U8)
Artikel Artikeldiskussionen
Französisch frwiki-20130904-articles.i5.bz2 frwiki-20130904-discussions.i5.bz2
Ungarisch huwiki-20140503-articles.i5.bz2 huwiki-20140503-discussions.i5.bz2
Norwegisch nowiki-20140512-articles.i5.bz2 nowiki-20140512-discussions.i5.bz2
Italienisch itwiki-20130508-articles.i5.bz2 itwiki-20130508-discussions.i5.bz2
Polnisch plwiki-20140503-articles.i5.bz2 plwiki-20140503-discussions.i5.bz2


Fremdsprachige Wikipedia 2015 - Verfügbare Files (Format I5, Encoding U8)
Artikel Artikeldiskussionen Nutzerdiskussionen
English enwiki-20150808-article.i5.utf8.xml.bz2 enwiki-20150808-talk.i5.utf8.xml.bz2 enwiki-20150808-user-talk.i5.utf8.xml.bz2
Französisch frwiki-20150808-article.i5.utf8.xml.bz2 frwiki-20150808-talk.i5.utf8.xml.bz2 frwiki-20150808-user-talk.i5.utf8.xml.bz2
Ungarisch huwiki-20150807-article.i5.utf8.xml.bz2 huwiki-20150807-talk.i5.utf8.xml.bz2 huwiki-20150807-user-talk.i5.utf8.xml.bz2
Norwegisch nowiki-20150807-article.i5.utf8.xml.bz2 nowiki-20150807-talk.i5.utf8.xml.bz2 nowiki-20150807-user-talk.i5.utf8.xml.bz2
Spanisch eswiki-20150808-article.i5.utf8.xml.bz2 eswiki-20150808-talk.i5.utf8.xml.bz2 eswiki-20150808-user-talk.i5.utf8.xml.bz2
Kroatisch hrwiki-20150807-article.i5.utf8.xml.bz2 hrwiki-20150807-talk.i5.utf8.xml.bz2 hrwiki-20150807-user-talk.i5.utf8.xml.bz2
Italienisch itwiki-20150808-article.i5.utf8.xml.bz2 itwiki-20150808-talk.i5.utf8.xml.bz2 itwiki-20150808-user-talk.i5.utf8.xml.bz2
Polnisch plwiki-20150808-article.i5.utf8.xml.bz2 plwiki-20150808-talk.i5.utf8.xml.bz2 plwiki-20150808-user-talk.i5.utf8.xml.bz2

Literatur

[1] Noah Bubenhofer, Stefanie Haupt, Horst Schwinn (2011): A Comparable Corpus of the Wikipedia: From Wiki Syntax to POS Tagged XML. Hamburg Working Paper in Multilingualism, 96 B
[2] Eliza Margaretha, Harald Lüngen (2014): Building linguistic corpora from Wikipedia articles and discussions. In: Journal for Language Technologie and Computational Linguistics (JLCL) 2/2014

zum Überblick