IDS-Logo
Startseite : : Organisationsstruktur : : Direktion : : Korpuslinguistik Korpuslinguistik : : Projekte : : Korpusausbau : : Archiv : : Plenarprotokolle
PlenarprotokolleProtocols of Plenary SessionsPlenarprotokollePlenarprotokollePlenarprotokollePlenarprotokolle
Direktion und zentrale Forschung

Kontakt:
    <korpuslinguistik@ids-...>
 
Leitung:
    Dr. Marc Kupietz <kupietz@ids-...>
 
Wissenschaftliche Mitarbeiter:
    Cyril Belica <belica@ids-...>
    Dr. Harald Lüngen <luengen@ids-...>
    Rainer Perkuhn <perkuhn@ids-...>
 
Kooperationen:
    siehe hier
 
Ehemalige am Korpusaufbau beteiligte Mitarbeiter des IDS:
    siehe hier
 
Studentische Hilfskräfte:

  • Anna Konovalova
  • Theresa Sick

 

 

Korpora der geschriebenen Sprache

Plenarprotokolle

 

Diese Korpussammlung erscheint seit 2013 und beinhaltet bisher Plenarprotokolle aller deutschen Parlamente, d.h. von Bundestag, Bundesrat sowie aller deutschen Landtage von (mindestens) 2000 bis Mitte 2012.

Deutschland: Das Korpus von Plenarprotokollen deutscher Parlamente wurde 2011-2012 in dem Projekt PolMine - Korpusunterstütze Politikforschung (Prof. Dr. Andreas Blätte und Silvia Berenz M.A.) an der Juniorprofessur für Politikwissenschaft der Stiftung Zukunft NRW der Universität Duisburg-Essen erarbeitet. Im Rahmen von PolMine wurden die Protokolle als PDF-Dokumente akquiriert und durch ein Konvertierungsprogramm in das PolMine-XML-Format überführt.

Im IDS-Projekt Korpusausbau wurde das Korpus in das IDS-Textmodell konvertiert. Darin entspricht jedes Parlament einem DeReKo-Korpus, jede Wahlperiode einem Dokument und jedes Protkoll einem Text.

Bedingt durch die vollautomatische Extraktion und Konvertierung aus PDF schwankt die Qualität der Texte bezüglich der Wort- und Strukturerkennung, wobei die meisten Texte von sehr guter Qualität sind. In der PolMine-Dokumentation zur Qualitätskontrolle kann man sich über die durchschnittlichen Qualitätswerte pro Parlament und Wahlperiode informieren.

DeReKo- Korpus- sigle

Parlament

ab Wahl- periode

ab Datum

bis Datum

Anzahl Texte (Protokolle)

Anzahl laufende Wortformen

Quelle: Projekt PolMine zu Daten und Analysen; Stand 2013-02-02

pbt

Deutscher Bundestag

14

26.10.1998

ca. Mitte 2012

872

51 139 236

pbr

Bundesrat

--

04.02.2000

ca. Mitte 2012

155

3 352 274

pbw

Landtag von Baden-Württemberg

12

11.06.1996

ca. Mitte 2012

378

18 730 308

pby

Bayerischer Landtag

14

28.09.1998

ca. Mitte 2012

359

15 452 256

pbe

Abgeordnetenhaus Berlin

14

18.11.1999

ca. Mitte 2012

228

12 433 700

pbb

Landtag Brandenburg

3

29.09.1999

ca. Mitte 2012

254

11 826 395

phb

Bremische Bürgerschaft

15

07.07.1999

ca. Mitte 2012

264

11 549 459

phh

Hamburgische Bürgerschaft

16

08.10.1997

ca. Mitte 2012

363

13 532 044

phe

Hessischer Landtag

15

07.04.1999

ca. Mitte 2012

413

19 491 715

pmv

Landtag Mecklenburg-Vorpommern

3

26.10.1998

ca. Mitte 2012

317

16 345 331

pni

Landtag Niedersachsen

14

09.04.1998

ca. Mitte 2012

370

21 798 168

pnw

Landtag Nordrhein-Westfalen

12

01.06.1995

ca. Mitte 2012

486

25 443 901

prp

Landtag Rheinland-Pfalz

13

20.05.1996

ca. Mitte 2012

383

14 260 320

psl

Landtag des Saarlandes

12

29.09.1999

ca. Mitte 2012

172

7 878 814

psn

Sächsischer Landtag

3

13.10.1999

ca. Mitte 2012

318

17 920 528

pst

Landtag von Sachsen-Anhalt

3

25.05.1998

ca. Mitte 2012

267

10 683 645

psh

Landtag von Schleswig-Holstein

14

23.04.1996

ca. Mitte 2012

458

19 329 586

pth

Thüringer Landtag

3

01.10.1999

ca. Mitte 2012

322

18 190 222

Wahlperioden: 65

Summe Texte:
6422

Summe Wortformen:
309 357 902

 

Österreich:

Ab dem Release DeReKo-2014-I sind auch Protokolle des Landtags von Niederösterreich enthalten (Aufbereitung: IDS)

DeReKo-Korpus- sigle

Parlament

ab Wahl- periode

ab Datum

bis Datum

Anzahl Texte (Protokolle)

Anzahl laufende
Wortformen

pno

Landtag von Niederösterreich

14

7.6.1993

2013 (einschl.)

220
Nicht enthalten:
Sitzungen 2,3,5-9,13-15
der 14. Wahlperiode;
Sondersitzungen

12 786 782

Wahlperioden: 5

Summe Texte:
220

Summe Wortformen:
12 786 782