IDS-Logo
Startseite : : Organisationsstruktur : : Direktion : : Korpuslinguistik Korpuslinguistik : : Projekte : : Korpusausbau : : Verfügbarkeit
VerfügbarkeitVerfügbarkeitVerfügbarkeitVerfügbarkeitVerfügbarkeitVerfügbarkeit
Direktion und zentrale Forschung

Kontakt:
    <korpuslinguistik@ids-...>
 
Leitung:
    Dr. Marc Kupietz <kupietz@ids-...>
 
Wissenschaftliche Mitarbeiter:
    Cyril Belica <belica@ids-...>
    Dr. Harald Lüngen <luengen@ids-...>
    Rainer Perkuhn <perkuhn@ids-...>
 
Kooperationen:
    siehe hier
 
Ehemalige am Korpusaufbau beteiligte Mitarbeiter des IDS:
    siehe hier
 
Studentische Hilfskräfte:

  • Anna Schächtele
  • Jani Takhsha

 

 

Korpora der geschriebenen Sprache


Verfügbarkeit

Aufgrund urheberrechtlicher Bestimmungen und vertraglicher Vereinbarungen mit den Rechteinhabern dürfen wir bedauerlicherweise nur wenige Korpora zum Download anbieten. Siehe auch FAQ: "Gibt es Bedingungen, unter denen Ausnahmen möglich sind?"

Mit Lizenzvereinbarung

Für die wissenschaftliche Nutzung ist es dem IDS gestattet, nach Unterzeichnung einer Lizenzvereinbarung, folgende Korpora der geschriebenen Sprache kostenlos abzugeben:

Bitte schicken Sie bei Interesse eine Anfrage per E-Mail an Frau Petra Brecht.

Download-Server

Außerdem stehende folgende Korpora jeweils unter der CC-BY-SA-Lizenz zum Download zu Verfügung (s. Download-Server)

  • Reden und Interviews-Korpus (rei)
  • Wikipedia-Artikel und -Diskussionen - Aufbereitung 2011 (wpd11 und wdd11)
    (Verschiedene Sprachen; Aufbereitung in Kooperation mit dem Projekt EuroGr@mm, siehe [1])
  • Wikipedia-Artikel und -Diskussionen - Aufbereitung 2013 (wpd13 und wdd13)
    (siehe [2], insgesamt knapp 1 Milliarde Tokens)
Verfügbare Files zu Wikipedia-Artikel und -Diskussionen - Aufbereitung 2013 (wpd13 und wdd13)
Format Artikel/
Diskussionen
Deutsch (de)
(ISO-8859-1)
Weitere Sprachen (UTF-8)
WikiXML Artikel dewikixml-20130728-
articles.tar.gz
-/-
Diskussionen dewikixml-20130728-
discussions.tar.gz
I5 Artikel wpd13.i5.xml.bz2 (fr|hu|it|no|pl|)wiki-<date>-
articles.i5.bz2
Diskussionen wdd13.i5.xml.bz2 (fr|hu|it|no|pl|)wiki-<date>-
discussions.i5.bz2
I5 sample Artikel wpd13_sample.i5.xml.bz2 (fr|hu|it|no|pl|)wiki-<date>-
articles_sample.i5.xml
Diskussionen wpd13_sample.i5.xml.bz2 (fr|hu|it|no|pl|)wiki-<date>-
discussions_sample.i5.xml
POS-Annotationen
(TreeTagger,
Standoff zu I5)
Artikel wpd13.tt.xml.bz2 -/-
Diskussionen wdd13.tt.xml.bz2

Literatur

[1] Noah Bubenhofer, Stefanie Haupt, Horst Schwinn (2011): A Comparable Corpus of the Wikipedia: From Wiki Syntax to POS Tagged XML. Hamburg Working Paper in Multilingualism, 96 B
[2] Eliza Margaretha, Harald Lüngen (im Erscheinen): Building linguistic corpora from Wikipedia articles and discussions. Erscheint in: Journal of Language Technologie and Computational Linguistics (JLCL)

zum Überblick