IDS-Logo
Startseite : : Organisationsstruktur : : Direktion : : Korpuslinguistik Korpuslinguistik : : Projekte : : Korpusausbau : : Verfügbarkeit
VerfügbarkeitVerfügbarkeitVerfügbarkeitVerfügbarkeitVerfügbarkeitVerfügbarkeit
Direktion und zentrale Forschung

Kontakt:
    <korpuslinguistik@ids-...>
 
Leitung:
    Dr. Marc Kupietz <kupietz@ids-...>
 
Wissenschaftliche Mitarbeiter:
    Cyril Belica <belica@ids-...>
    Dr. Harald Lüngen <luengen@ids-...>
    Rainer Perkuhn <perkuhn@ids-...>
 
Kooperationen:
    siehe hier
 
Ehemalige am Korpusaufbau beteiligte Mitarbeiter des IDS:
    siehe hier
 
Studentische Hilfskräfte:

  • Anna Schächtele
  • Jani Takhsha

 

 

Korpora der geschriebenen Sprache


Verfügbarkeit

Aufgrund urheberrechtlicher Bestimmungen und vertraglicher Vereinbarungen mit den Rechteinhabern dürfen wir bedauerlicherweise nur wenige Korpora zum Download anbieten. Siehe auch FAQ: "Gibt es Bedingungen, unter denen Ausnahmen möglich sind?"

Mit Lizenzvereinbarung

Für die wissenschaftliche Nutzung ist es dem IDS gestattet, nach Unterzeichnung einer Lizenzvereinbarung, folgende Korpora der geschriebenen Sprache kostenlos abzugeben:

Bitte schicken Sie bei Interesse eine Anfrage per E-Mail an Frau Petra Brecht.

Download-Server

Außerdem stehende folgende Korpora jeweils unter der CC-BY-SA-Lizenz zum Download zu Verfügung

  • Reden und Interviews-Korpus (rei)
  • Wikipedia-Korpora
    Aufbereitung 2011 in Kooperation mit dem Projekt EuroGr@mm [1],
    Aufbereitung 2013 und 2015 in Kooperation mit dem Programmbereich Forschungsinfrastrukturen [2].

Deutschsprachige Wikipedia - Verfügbare Files 2011-2015 (Encoding ISO-8859-1)
Jahr WP-Teilkorpus I5 WikiXML TreeTagger
Standoff
2011 Artikel wpd11.xces.bz2 -/- -/-
Artikeldiskussionen wdd11.xces.bz2
2013 Artikel wpd13.i5.xml.bz2 dewikixml-20130728-articles.tar.gz wpd13.tt.xml.bz2
Artikeldiskussionen wdd13.i5.xml.bz2 dewikixml-20130728-discussions.tar.gz wdd13.tt.xml.bz2
Artikel-Sample wpd13_sample.i5.xml.bz2 -/- -/-
Artikeldiskussionen-Sample wdd13_sample.i5.xml.bz2
2015 Artikel wpd15.i5.xml.bz2 wpd15.wikixml.tar.gz wpd15.tt.xml.bz2
Artikeldiskussionen wdd15.i5.xml.bz2 wdd15.wikixml.tar.gz wdd15.tt.xml.bz2
Nutzerdiskussionen wud15.i5.xml.bz2 wud15.wikixml.tar.gz wud15.tt.xml.bz2
Artikel-Sample wpd15_sample.i5.xml.bz2 -/- -/-
Artikeldiskussionen-Sample wdd15_sample.i5.xml.bz2
Nutzerdiskussionen-Sample wud15_sample.i5.xml.bz2


Fremdsprachige Wikipedia 2013 - Verfügbare Files (Format I5, Encoding U8)
Artikel Artikeldiskussionen
Französisch frwiki-20130904-articles.i5.bz2 frwiki-20130904-discussions.i5.bz2
Ungarisch huwiki-20140503-articles.i5.bz2 huwiki-20140503-discussions.i5.bz2
Norwegisch nowiki-20140512-articles.i5.bz2 nowiki-20140512-discussions.i5.bz2
Italienisch itwiki-20130508-articles.i5.bz2 itwiki-20130508-discussions.i5.bz2
Polnisch plwiki-20140503-articles.i5.bz2 plwiki-20140503-discussions.i5.bz2


Fremdsprachige Wikipedia 2015 - Verfügbare Files (Format I5, Encoding U8)
Artikel Artikeldiskussionen Nutzerdiskussionen
English enwiki-20150808-article.i5.utf8.xml.bz2 enwiki-20150808-talk.i5.utf8.xml.bz2 enwiki-20150808-user-talk.i5.utf8.xml.bz2
Französisch frwiki-20150808-article.i5.utf8.xml.bz2 frwiki-20150808-talk.i5.utf8.xml.bz2 frwiki-20150808-user-talk.i5.utf8.xml.bz2
Ungarisch huwiki-20150807-article.i5.utf8.xml.bz2 huwiki-20150807-talk.i5.utf8.xml.bz2 huwiki-20150807-user-talk.i5.utf8.xml.bz2
Norwegisch nowiki-20150807-article.i5.utf8.xml.bz2 nowiki-20150807-talk.i5.utf8.xml.bz2 nowiki-20150807-user-talk.i5.utf8.xml.bz2
Spanisch eswiki-20150808-article.i5.utf8.xml.bz2 eswiki-20150808-talk.i5.utf8.xml.bz2 eswiki-20150808-user-talk.i5.utf8.xml.bz2
Kroatisch hrwiki-20150807-article.i5.utf8.xml.bz2 hrwiki-20150807-talk.i5.utf8.xml.bz2 hrwiki-20150807-user-talk.i5.utf8.xml.bz2
Italienisch itwiki-20150808-article.i5.utf8.xml.bz2 itwiki-20150808-talk.i5.utf8.xml.bz2 itwiki-20150808-user-talk.i5.utf8.xml.bz2
Polnisch plwiki-20150808-article.i5.utf8.xml.bz2 plwiki-20150808-talk.i5.utf8.xml.bz2 plwiki-20150808-user-talk.i5.utf8.xml.bz2

Literatur

[1] Noah Bubenhofer, Stefanie Haupt, Horst Schwinn (2011): A Comparable Corpus of the Wikipedia: From Wiki Syntax to POS Tagged XML. Hamburg Working Paper in Multilingualism, 96 B
[2] Eliza Margaretha, Harald Lüngen (2014): Building linguistic corpora from Wikipedia articles and discussions. In: Journal for Language Technologie and Computational Linguistics (JLCL) 2/2014

zum Überblick