IDS-Logo
Direktion und zentrale Forschung

Kontakt:
    <korpuslinguistik@ids-...>
 
Leitung:
    Dr. Marc Kupietz <kupietz@ids-...>
 
Wissenschaftliche Mitarbeiter:
    Cyril Belica <belica@ids-...>
    Dr. Harald Lüngen <luengen@ids-...>
    Rainer Perkuhn <perkuhn@ids-...>
 
Kooperationen:
    siehe hier
 
Ehemalige am Korpusaufbau beteiligte Mitarbeiter des IDS:
    siehe hier
 
Studentische Hilfskräfte:

  • Anna Schächtele
  • Jani Takhsha

 

 

Korpora der geschriebenen Sprache

Aktuelles Korpusarchiv

Umfang

Das IDS begann Mitte der Sechzigerjahre mit dem Aufbau elektronischer Textkorpora. Der Umfang der Korpora hat sich seit 1992 von ca. 28 Millionen auf 28 Milliarden Textwörter im Jahre 2015 erhöht (das entspricht etwa 70 Millionen Buchseiten, wenn man durchschnittlich 400 Wörter/Seite zugrunde legt). Am Aufbau der weltweit größten Sammlung dieser Art waren viele Mitarbeiter beteiligt. Das Korpusarchiv wird fortlaufend erweitert und bestehendes Korpusmaterial im Sinne eines Qualitätsmanagements überarbeitet. Die Ergebnisse dieser Arbeiten werden in regelmäßigen Abständen veröffentlicht, indem sie an das Projekt COSMAS II übergeben werden (s. Release-Chronik).

Geographische Herkunft der DeReKo-Zeitungsquellen

Ähnlichkeitsbeziehungen unter den DeReKo-Quellen

Archivierte Korpora

Aus urheber- und lizenzrechtlichen Gründen ist leider ein kleiner Teil der archivierten Korpora von außerhalb des IDS unzugänglich. In den letzten Jahren konnte der Anteil jedoch auf unter 5% gesenkt werden. Generell dürfen die IDS-Korpora nur zu wissenschaftlichen, nichtkommerziellen Zwecken genutzt werden. Welche Möglichkeiten Ihnen dafür zur Verfügung stehen, erfahren Sie auf der Seite Hinweise zur Verfügbarkeit.

Archiv öffentlich zugänglicher Korpora geschriebener Sprache

  • Belletristik des 20. und 21. Jahrhunderts; diverse Schriftsteller (loz-div-pub)
  • Belletristik des 20. Jahrhunderts; Martin Walser (loz-wam)
  • Berliner Morgenpost (bmp / 1997-1999)
  • Braunschweiger Zeitung (brz / 2005-12/2012)
  • Bonner Zeitungskorpus (bzk)
  • Burgenländische Volkszeitung (bvz / 2007-7/2011, 2/2012-12/2012)
  • COMPUTER ZEITUNG (cz; deutsch / 1993-1998)
  • Die Zeit (z / ab 2000)
  • die tageszeitung (taz / ab 2000)
  • Fachsprachen-Korpus 1 (fsp-pub)
  • Focus (foc / ab 2000)
  • Frankfurter Rundschau (ffr / 1997-1999)
  • Goethe-Korpus (goe)
  • Grammatik-Korpus (gr1)
  • GRIMM-Korpus (gri)
  • Hamburger Morgenpost (hmp / 2005-12/2012)
  • Handbuchkorpora (hbk)
    • gesondert nach Jahrgängen: h85, h86, h87, h88
  • Hannoversche Allgemeine (haz / 08/2007-12/2012)
  • Kleine Zeitung (klz; österreichisch / 1996-2000)
  • LIMAS-Korpus (lim / auch morphosyntaktisch annotiert)
  • Korpus-Kartei der Gesellschaft für deutsche Sprache, Wiesbaden (gfds)
  • Korpus Magazin Lufthansa Bordbuch (mld / 1995-1997)
  • Mannheimer Korpora (mk)
    • Mannheimer Korpus 1 (mk1)
    • Mannheimer Korpus 2 (mk2)
  • Mannheimer Morgen (mmm / 1989, 1991, 1994-12/2012 / teilweise morphosyntaktisch annotiert)
  • Marx-Engels-Korpora
    • Marx-Engels-Gesamtausgabe – ausgewählte Texte (meg)
    • Marx-Engels-Werke – ausgewählte Texte (mew)
    • Herausgeber-Anmerkungstexte zu mew (mwa)
  • Neue Kronen-Zeitung (nkz; österreichisch / 1994-2000)
  • Neuland: Das Wirtschaftsmagazin der Regionen (neu / ab 10/2007)
  • NEWS (ab 2002)
  • Niederösterreichische Nachrichten (non / 2007-4/2011, 2/2012-12/2012)
  • Nürnberger Nachrichten (nun / 1990-12/2012)
  • Nürnberger Zeitung (nuz / 2002-12/2012)
  • NZZ am Sonntag (nzs / ab 03/2002)
  • Oberösterreichische Nachrichten (oon / 1996-2000)
  • Plenarprotokolle
    • gesondert nach Parlamenten (pbb, pbe, pbr, pbt, pbw, pby, phb, phe, phh, pmv, pni, pno, pnw, prp, psh, psl, psn, pst, pth)
  • Die Presse (dpr; österreichisch / 1991-2000)
  • profil (prf / ab 2000)
  • Reden und Interviews (rei)
  • Rhein-Zeitung (rhz / 1996-12/2012)
  • Salzburger Nachrichten (sbn / 1991-2000)
  • Sonntagsblick (sbl / 02/2001, ab 2005)
  • Süddeutsche Zeitung (u / ab 1992)
  • Die Südostschweiz (soz / 2005-12/2012)
  • St. Galler Tagblatt (sgt; schweizerisch / 1997-2001, 2007-12/2012)
  • Tiroler Tageszeitung (ttz / 1996-2000)
  • VDI Nachrichten (vdi / 2006-12/2012)
  • Vorarlberger Nachrichten (van / 1997-2000)
  • Weltwoche (wwo / ab 2005)
  • Wendekorpus (wk)
    • Wendekorpus West (wkb; Bundesrepublik Deutschland)
    • Wendekorpus Ost (wkd; DDR)
  • Wikipedia – Die freie Enzyklopädie
    • Artikel (wpd / Stand 03/2005)
    • Artikel (wpd11 / Stand 10/2011)
    • Artikel (wpd13 / Stand 07/2013)
    • Diskussionen (wdd11 / Stand 10/2011)
    • Diskussionen (wdd13 / Stand 07/2013)
  • Zeit Campus (zca / ab 06/2009
  • Zeit Geschichte (zge / ab 02/2010)
  • Zeit Wissen (zwi / ab 02/2009
  • Zürcher Tagesanzeiger (zta / 1996-2000)

Nur IDS-intern zugängliche Korpora geschriebener Sprache

  • Belletristik des 20. und 21. Jahrhunderts; diverse Schriftsteller (loz-div)
  • Belletristik des 20. Jahrhunderts; Stefan Heym (loz-hes)
  • Belletristik des 20. Jahrhunderts; Siegfried Lenz (loz-les)
  • Berliner Zeitung (b / 08/1997-09/2008)
  • Biografische Literatur (bio)
  • Der Spiegel (s / 1993-1994 / auch morphosyntaktisch annotiert)
  • die tageszeitung (t / 1986-1999)
  • Meldungen der Deutschen Presse-Agentur (dpa / 2006-11/2009, 04/2010-12/2012)
  • Fachsprachen-Korpus 1 (fsp)
  • Fachsprachen-Korpus 2: Gentechnologie (dkg)
  • Frankfurter Allgemeine (f / 1993, 1995, 1997, 1999, 2001, 2003, 2005)
  • Herausgebertexte zum Korpus bio (bih)
  • Historisches Korpus 1 (hi1)
  • Historisches Korpus 2 (hi2)
  • Interview-Korpus (iko)
  • Die Rheinpfalz (rhp / 08/2007-04/2008, 07/2008-12/2012)
  • Thomas-Mann-Korpus (thm)
  • Wendekorpus Vereinigung (wkv)

Für diese Korpora gelten besondere Nutzungsauflagen. Zugang nur IDS-intern und nur auf Anfrage.

zum Überblick