Wikipedia-Korpora

Startseite

Organisation

Digitale Sprachwissenschaft

Korpuslinguistik

Projekte

Korpusausbau

Archiv

Wikipedia-Korpora

Korpora der geschriebenen Sprache

<body>

Wikipedia-Korpora

Wikipedia-Korpora 2019 (wpd19, wdd19)

Erarbeitung: IDS und Université Toulouse

Zeitraum: Wikipedia-Dump vom 1. August 2019

Umfang und Inhalt:

	wpd19 (Artikel)	wdd19 (Artikel- Diskussionen)
#Texte	2.323.259	711.935
#Posts	-/-	6.480.350
#Tokens	989.006.303	403.272.910

Hinweise: wpd19 und wdd19 derzeit nur in COSMAS II verfügbar

Wikipedia-Korpora 2017 (wpd17, wdd17, wud17, wrd17)

Erarbeitung: IDS

Zeitraum: Wikipedia-Dump vom 1. Juli 2017

Umfang und Inhalt:

	wpd17 (Artikel)	wdd17 (Artikel- Diskussionen)	wud17 (Nutzer- Diskussionen)	wrd17 (Redundanz- Diskussionen)
#Texte	2.065.926	744.857	603.374	240
#Posts	-/-	7.107.696	5.895.545	52.393
#Tokens	873.182.923	349.075.823	309.390.966	1.775.975

Hinweis: Fußnoten sind ab 2017 separiert und erscheinen nicht mehr im Fließtext

Download: DeReKo-Downloads

Wikipedia-Korpora 2015 (wpd15, wdd15, wud15)

Erarbeitung: IDS

Zeitraum: Wikipedia-Dump vom April 2015

Umfang und Inhalt:

	wpd15 (Artikel)	wdd15 (Artikel- Diskussionen)	wud15 (Nutzer- Diskussionen)
#Texte	1.802.682	591.460	539.053
#Posts	-/-	6.200.701	5.523.769
#Tokens	796.638.747	309.897.027	271.441.322

Hinweis:

Fußnoten: In den Wikipedia-Konvertierungen erscheint Fußnotentext im Fließtext an der Stelle, an der normalerweise das Fußnotenzeichen steht, dies geht auf die Wikitext-Quelle zurück. Zwar sind diese Einschübe in der mit I5-Markup versehen, dieses ist aber in COSMAS II-Ergebnisansichten nicht sichtbar. Dort erscheinen Fußnoteneinschübe mitten im Text, u.U. mitten im Satz. Dadurch kann es auch sein, dass die Satzsegmentierung an diesen Stellen nicht den Erwartungen entspricht. In zukünftigen Wikipedia-Konvertierungen werden die Fußnotentexte separiert.

Download: DeReKo-Downloads

Fremdsprachige Wikipedia-Korpora, 2015

Erarbeitung: IDS

Zeitraum: Wikipedia-Dumps vom August und September 2015

Umfang und Inhalt:

Artikel #Tokens	Artikel-Diskussionen #Tokens	Nutzer-Diskussionen # Tokens
Englisch (wpe15, wde15, wue15)	2.403.943.177	1.270.217.981	2.698.338.998
Französisch (wpf15, wdf15, wuf15)	764.459.026	137.107.729	372.639.260
Ungarisch (wpu15, wdu15, wuu15)	117.987.947	8.293.799	26.215.158
Norwegisch (wpn15, wdn15, wun15)	99.014.144	5.314.362	32.481.331
Spanisch (wps15, wds15, wus15)	578.882.431	54.907.258	276.034.367
Kroatisch (wpk15, wdk15, wuk15)	46.641.724	2.480.966	18.731.167
Italienisch (wpi15, wdi15, wui15)	463.022.806	49.825.036	125.573.567
Polnisch (wpp15, wdp15, wup15)	298.207.197	16.558.557	64.126.136

Hinweise:

Die fremdsprachigen Wikipedia-Korpora sind naturgemäß nicht Teil des Deutschen Referenzkorpus DeReKo.
Fußnoten: In den Wikipedia-Konvertierungen erscheint Fußnotentext im Fließtext an der Stelle, an der normalerweise das Fußnotenzeichen steht, dies geht auf die Wikitext-Quelle zurück. Zwar sind diese Einschübe in der Korpusrepräsentation mit I5-Markup versehen, dieses ist aber in COSMAS II-Ergebnisansichten nicht sichtbar. Dort erscheinen Fußnoteneinschübe mitten im Text, u.U. mitten im Satz. Dadurch kann es auch sein, dass die Satzsegmentierung an diesen Stellen nicht den Erwartungen entspricht. In zukünftigen Wikipedia-Konvertierungen werden die Fußnotentexte separiert.
Tokenisierung: Die fremdsprachigen Wikipedia-Korpora wurden mit der gleichen Konvertierungspipeline aus den Wikipedia-Dumps konvertiert wie die deutschsprachigen. D.h. unter anderem, dass beim Import in COSMAS II eine Tokenisierung verwendet wurde, die eigentlich für das Deutsche entwickelt wurde. Insbesondere gilt bei dieser Tokenisierung der Apostroph (') nicht als Token-Separator. Das hat zur Folge, dass z.B. in der französischen und italienischen WP die mit Apostroph separierten proklitischen Artikel, Pronomina und andere Funktionswörter in COSMAS II zusammen mit ihrem Basiswort als ein Token repräsentiert sind. (Z.B im Frz. l'amour, c'est, n'est, m'ennnuie). D.h. wenn in COSMAS II nach der Wortform amour gesucht wird, werden klitisierte Formen wie l'amour nicht in der Treffermenge erscheinen. Als Abhilfe können Platzhalter-Operatoren verwendet werden (z.B. Suchform *amour) oder die klitisierten Formen im Suchausdruck explizit mit aufgeführt werden.
Analog gilt ein Bindestrich grundsätzlich nicht als Token-Separator. In der französischen WP sind daher alle Formen mit phonetisch bedingtem -t- -Einschub als ein Token repräsentiert (a-t-il, a-t-on, va-t-on etc.).
In ähnlicher Weise ist auch die Lemmatisierung von COSMAS II auf das Deutsche zugeschnitten. Daher ergibt es wenig Sinn, den Grundformenoperator '&' in Anfragen an die fremdsprachigen Wikipedia-Korpora zu verwenden.

Download: DeReKo-Downloads

Wikipedia-Korpora, 2013

Erarbeitung: IDS

Zeitraum: Wikipedia-Dump vom Juli 2013

Umfang und Inhalt:

Artikel (wpd13): 689.046.830 Tokens
Artikel-Diskussionen (wdd13): 274.141.008 Tokens

Download: DeReKo-Downloads

Wikipedia-Korpora, 2011

Erarbeitung: IDS, Projekte EuroGr@mm und Korpusausbau

Zeitraum: Wikipedia-Dump von 2011

Umfang und Inhalt:

Artikel (wpd11): 560.786.178 Tokens
Artikel-Diskussionen (wdd11): 234.556.967 Tokens

Download: DeReKo-Downloads

Wikipedia-Korpora, 2005

Erarbeitung: IDS

Zeitraum: Wikipedia-Dump von 2005

Umfang und Inhalt: Artikel (wpd): 50.053.144 Tokens

Download: href="/digspra/kl/projekte/korpora/verfuegbarkeit">DeReKo-Downloads

Literatur

Noah Bubenhofer, Stefanie Haupt, Horst Schwinn (2011): A Comparable Corpus of the Wikipedia: From Wiki Syntax to POS Tagged XML. Hamburg Working Paper in Multilingualism, 96 B
Eliza Margaretha, Harald Lüngen (2014): Building linguistic corpora from Wikipedia articles and discussions. In: Journal for Language Technologie and Computational Linguistics (JLCL) 2/2014

</body>

Korpora der geschriebenen Sprache

Wikipedia-Korpora

Wikipedia-Korpora 2019 (wpd19, wdd19)

Wikipedia-Korpora 2017 (wpd17, wdd17, wud17, wrd17)

Wikipedia-Korpora 2015 (wpd15, wdd15, wud15)

Fremdsprachige Wikipedia-Korpora, 2015

Wikipedia-Korpora, 2013

Wikipedia-Korpora, 2011

Wikipedia-Korpora, 2005

Literatur

Organisationsstruktur

Informationen

Schnelleinstieg

Kontakt

Social Media