Digitale Sprachwissenschaft

Kontakt:
    <korpuslinguistik@ids-...>
 
Leitung:
    Dr. Marc Kupietz <kupietz@ids-...>
 
Wissenschaftliche Mitarbeiter:
    Cyril Belica <belica@ids-...>
    Dr. Harald Lüngen <luengen@ids-...>
    Rainer Perkuhn <perkuhn@ids-...>
 
Kooperationen:
    siehe hier
 
Ehemalige am Korpusaufbau beteiligte Mitarbeiter des IDS:
    siehe hier
 
Studentische Hilfskräfte:

  • Caroline Iliadi
  • Ines Pisetta

Korpora der geschriebenen Sprache

Plenarprotokolle

 

Diese Korpussammlung erscheint seit 2013 und beinhaltet bisher Plenarprotokolle aller deutschen Parlamente, d.h. von Bundestag, Bundesrat sowie aller deutschen Landtage von (mindestens) 2000 bis Mitte 2012.

Deutschland: Das Korpus von Plenarprotokollen deutscher Parlamente wurde 2011-2012 in dem Projekt PolMine - Korpusunterstütze Politikforschung (Prof. Dr. Andreas Blätte und Silvia Berenz M.A.) an der Juniorprofessur für Politikwissenschaft der Stiftung Zukunft NRW der Universität Duisburg-Essen erarbeitet. Im Rahmen von PolMine wurden die Protokolle als PDF-Dokumente akquiriert und durch ein Konvertierungsprogramm in das PolMine-XML-Format überführt.

Im IDS-Projekt Korpusausbau wurde das Korpus in das IDS-Textmodell konvertiert. Darin entspricht jedes Parlament einem DeReKo-Korpus, jede Wahlperiode einem Dokument und jedes Protkoll einem Text.

Bedingt durch die vollautomatische Extraktion und Konvertierung aus PDF schwankt die Qualität der Texte bezüglich der Wort- und Strukturerkennung, wobei die meisten Texte von sehr guter Qualität sind. In der PolMine-Dokumentation zur Qualitätskontrolle kann man sich über die durchschnittlichen Qualitätswerte pro Parlament und Wahlperiode informieren.

DeReKo- Korpus- sigle Parlament ab Wahl- periode ab Datum bis Datum Anzahl Texte (Protokolle) Anzahl laufende Wortformen
Quelle: Projekt PolMine zu Daten und Analysen; Stand 2013-02-02
pbt Deutscher Bundestag 14 26.10.1998 ca. Mitte 2012 872 51 139 236
pbr Bundesrat -- 04.02.2000 ca. Mitte 2012 155 3 352 274
pbw Landtag von Baden-Württemberg 12 11.06.1996 ca. Mitte 2012 378 18 730 308
pby Bayerischer Landtag 14 28.09.1998 ca. Mitte 2012 359 15 452 256
pbe Abgeordnetenhaus Berlin 14 18.11.1999 ca. Mitte 2012 228 12 433 700
pbb Landtag Brandenburg 3 29.09.1999 ca. Mitte 2012 254 11 826 395
phb Bremische Bürgerschaft 15 07.07.1999 ca. Mitte 2012 264 11 549 459
phh Hamburgische Bürgerschaft 16 08.10.1997 ca. Mitte 2012 363 13 532 044
phe Hessischer Landtag 15 07.04.1999 ca. Mitte 2012 413 19 491 715
pmv Landtag Mecklenburg-Vorpommern 3 26.10.1998 ca. Mitte 2012 317 16 345 331
pni Landtag Niedersachsen 14 09.04.1998 ca. Mitte 2012 370 21 798 168
pnw Landtag Nordrhein-Westfalen 12 01.06.1995 ca. Mitte 2012 486 25 443 901
prp Landtag Rheinland-Pfalz 13 20.05.1996 ca. Mitte 2012 383 14 260 320
psl Landtag des Saarlandes 12 29.09.1999 ca. Mitte 2012 172 7 878 814
psn Sächsischer Landtag 3 13.10.1999 ca. Mitte 2012 318 17 920 528
pst Landtag von Sachsen-Anhalt 3 25.05.1998 ca. Mitte 2012 267 10 683 645
psh Landtag von Schleswig-Holstein 14 23.04.1996 ca. Mitte 2012 458 19 329 586
pth Thüringer Landtag 3 01.10.1999 ca. Mitte 2012 322 18 190 222
Wahlperioden: 65 Summe Texte:
6422
Summe Wortformen:
309 357 902

 

Österreich:

Ab dem Release DeReKo-2014-I sind auch Protokolle des Landtags von Niederösterreich enthalten (Aufbereitung: IDS)

DeReKo-Korpus- sigle Parlament ab Wahl- periode ab Datum bis Datum Anzahl Texte (Protokolle) Anzahl laufende
Wortformen
pno Landtag von Niederösterreich 14 7.6.1993 2013 (einschl.) 220
Nicht enthalten:
Sitzungen 2,3,5-9,13-15
der 14. Wahlperiode;
Sondersitzungen
12 786 782
Wahlperioden: 5 Summe Texte:
220
Summe Wortformen:
12 786 782