Digitale Sprachwissenschaft

Wikipedia-Korpora

Wikipedia-Korpora 2017 (wpd17, wdd17, wud17, wrd17)

Erarbeitung: IDS

Zeitraum: Wikipedia-Dump vom 1. Juli 2017

Umfang und Inhalt:
wpd17
(Artikel)
wdd17
(Artikel- Diskussionen)
wud17
(Nutzer- Diskussionen)
wrd17
(Redundanz- Diskussionen)
#Texte 2065926 744857 603374 240
#Posts -/- 7107696 5895545 52393
#Tokens 873182923 349075823 309390966 1775975

Hinweise:
  • Fußnoten: Fußnoten sind ab 2017 separiert und erscheinen nicht mehr im Fließtext

Download: DeReKo-Downloads


Wikipedia-Korpora 2015 (wpd15, wdd15, wud15)

Erarbeitung: IDS

Zeitraum: Wikipedia-Dump vom April 2015

Umfang und Inhalt:
wpd15
(Artikel)
wdd15
(Artikel- Diskussionen)
wud15
(Nutzer- Diskussionen)
#Texte 1.802.682 591.460 539.053
#Posts -/- 6.200.701 5.523.769
#Tokens 796.638.747 309.897.027 271.441.322

Hinweis:
  • Fußnoten: In den Wikipedia-Konvertierungen erscheint Fußnotentext im Fließtext an der Stelle, an der normalerweise das Fußnotenzeichen steht, dies geht auf die Wikitext-Quelle zurück. Zwar sind diese Einschübe in der mit I5-Markup versehen, dieses ist aber in COSMAS II-Ergebnisansichten nicht sichtbar. Dort erscheinen Fußnoteneinschübe mitten im Text, u.U. mitten im Satz. Dadurch kann es auch sein, dass die Satzsegmentierung an diesen Stellen nicht den Erwartungen entspricht. In zukünftigen Wikipedia-Konvertierungen werden die Fußnotentexte separiert.

Download: DeReKo-Downloads


Fremdsprachige Wikipedia-Korpora, 2015

Erarbeitung: IDS

Zeitraum: Wikipedia-Dumps vom August und September 2015

Umfang und Inhalt:
Artikel #Tokens Artikel-Diskussionen #Tokens Nutzer-Diskussionen # Tokens
Englisch
(wpe15, wde15, wue15)
2.403.943.177 1.270.217.981 2.698.338.998
Französisch
(wpf15, wdf15, wuf15)
764.459.026 137.107.729 372.639.260
Ungarisch
(wpu15, wdu15, wuu15)
117.987.947 8.293.799 26.215.158
Norwegisch
(wpn15, wdn15, wun15)
99.014.144 5.314.362 32.481.331
Spanisch
(wps15, wds15, wus15)
578.882.431 54.907.258 276.034.367
Kroatisch
(wpk15, wdk15, wuk15)
46.641.724 2.480.966 18.731.167
Italienisch
(wpi15, wdi15, wui15)
463.022.806 49.825.036 125.573.567
Polnisch
(wpp15, wdp15, wup15)
298.207.197 16.558.557 64.126.136

Hinweise:
  • Die fremdsprachigen Wikipedia-Korpora sind naturgemäß nicht Teil des Deutschen Referenzkorpus DeReKo.
  • Fußnoten: In den Wikipedia-Konvertierungen erscheint Fußnotentext im Fließtext an der Stelle, an der normalerweise das Fußnotenzeichen steht, dies geht auf die Wikitext-Quelle zurück. Zwar sind diese Einschübe in der Korpusrepräsentation mit I5-Markup versehen, dieses ist aber in COSMAS II-Ergebnisansichten nicht sichtbar. Dort erscheinen Fußnoteneinschübe mitten im Text, u.U. mitten im Satz. Dadurch kann es auch sein, dass die Satzsegmentierung an diesen Stellen nicht den Erwartungen entspricht. In zukünftigen Wikipedia-Konvertierungen werden die Fußnotentexte separiert.
  • Tokenisierung: Die fremdsprachigen Wikipedia-Korpora wurden mit der gleichen Konvertierungspipeline aus den Wikipedia-Dumps konvertiert wie die deutschsprachigen. D.h. unter anderem, dass beim Import in COSMAS II eine Tokenisierung verwendet wurde, die eigentlich für das Deutsche entwickelt wurde. Insbesondere gilt bei dieser Tokenisierung der Apostroph (') nicht als Token-Separator. Das hat zur Folge, dass z.B. in der französischen und italienischen WP die mit Apostroph separierten proklitischen Artikel, Pronomina und andere Funktionswörter in COSMAS II zusammen mit ihrem Basiswort als ein Token repräsentiert sind. (Z.B im Frz. l'amour, c'est, n'est, m'ennnuie). D.h. wenn in COSMAS II nach der Wortform amour gesucht wird, werden klitisierte Formen wie l'amour nicht in der Treffermenge erscheinen. Als Abhilfe können Platzhalter-Operatoren verwendet werden (z.B. Suchform *amour) oder die klitisierten Formen im Suchausdruck explizit mit aufgeführt werden.
  • Analog gilt ein Bindestrich grundsätzlich nicht als Token-Separator. In der französischen WP sind daher alle Formen mit phonetisch bedingtem -t- -Einschub als ein Token repräsentiert (a-t-il, a-t-on, va-t-on etc.).
  • In ähnlicher Weise ist auch die Lemmatisierung von COSMAS II auf das Deutsche zugeschnitten. Daher ergibt es wenig Sinn, den Grundformenoperator '&' in Anfragen an die fremdsprachigen Wikipedia-Korpora zu verwenden.

Download: DeReKo-Downloads


Wikipedia-Korpora, 2013

Erarbeitung: IDS

Zeitraum: Wikipedia-Dump vom Juli 2013

Umfang und Inhalt:
  • Artikel (wpd13): 689.046.830 Tokens
  • Artikel-Diskussionen (wdd13): 274.141.008 Tokens

Download: DeReKo-Downloads


Wikipedia-Korpora, 2011

Erarbeitung: IDS, Projekte EuroGr@mm und Korpusausbau

Zeitraum: Wikipedia-Dump von 2011

Umfang und Inhalt:
  • Artikel (wpd11): 560.786.178 Tokens
  • Artikel-Diskussionen (wdd11): 234.556.967 Tokens

Download: DeReKo-Downloads


Wikipedia-Korpora, 2005

Erarbeitung: IDS

Zeitraum: Wikipedia-Dump von 2005

Umfang und Inhalt: Artikel (wpd): 50.053.144 Tokens

Download: DeReKo-Downloads


Literatur

  1. Noah Bubenhofer, Stefanie Haupt, Horst Schwinn (2011): A Comparable Corpus of the Wikipedia: From Wiki Syntax to POS Tagged XML. Hamburg Working Paper in Multilingualism, 96 B
  2. Eliza Margaretha, Harald Lüngen (2014): Building linguistic corpora from Wikipedia articles and discussions. In: Journal for Language Technologie and Computational Linguistics (JLCL) 2/2014