Direktion und zentrale Forschung

DEREKO I
(Projekt beendet im März 2002)

Das vom Land Baden-Württemberg finanzierte Kooperationsprojekt zum Auf- bzw. Ausbau des Deutschen Referenzkorpus (DEREKO I) begann im Mai 1999 und endete im März 2002. Kooperationspartner des IDS waren das Institut für Maschinelle Sprachverarbeitung (IMS) der Universität Stuttgart und das Seminar für Sprachwissenschaft (SfS) der Universität Tübingen, deren Projektzeitraum im Januar 2002 endete. Ziel war, die deutsche Gegenwartssprache (von 1956 bis Ende 2001) möglichst breit und der Sprachwirklichkeit angemessen zu repräsentieren, mit modernen korpuslinguistischen Verfahren aufzubereiten und der Wissenschaft zu Verfügung zu stellen. Das Projekt war in die Gesamtvorhaben der Arbeitsgruppe für Korpustechnologie des IDS eingebunden, schloss unmittelbar an die Korpusakquisitionsarbeiten des IDS in den vergangenen Jahren an und nutzte die Ressourcen innerhalb des IDS.

Das IDS übernahm die Akquisition, die Dokumentation, die Konvertierung der Texte und die maschinelle Kodierung der Dokumentstruktur und der bibliographischen Information nach dem Corpus Encoding Standard (CES). Die Universität Tübingen entwickelte Tools zur morphosyntaktischen Annotation der Texte und die Universität Stuttgart arbeitete an der Entwicklung von Recherchetools.

Aufgabe des IDS war die Akquisition und Bearbeitung von Textmaterial einer möglichst großen Bandbreite von Textsorten im Umfang von einer Milliarde laufenden Wörtern. Die in elektronischer Form akquirierten Textmaterialien enthalten insgesamt zwölf regionale und überregionale Tageszeitungen aus Deutschland, Österreich und der Schweiz, alle mit mehreren Jahrgängen, mehrere Fachzeitungen, über 250 belletristische Titel und Sachbücher und eine Sammlung von Texten aus Politik, Recht und Wissenschaft. Ein Teil der Materialien konnte bereits während der Projektlaufzeit nach Konvertierung, Bearbeitung und Dokumentation in Form eines Korpus zur Nutzung freigegeben werden. Insgesamt wurden Korpora im Umfang von ca. 993 Millionen laufenden Textwörtern aufgebaut.

Die letzte Phase des Projekts war von der juristischen Klärung urheberrechtlicher Fragen bestimmt, die eine uneingeschränkte Online-Nutzung elektronischer Textkorpora zunehmend erschweren. Trotz eines guten Ergebnisses macht es die restriktive Handhabung des Urheberrechts und hohe finanzielle Forderungen fast unmöglich, den Datenbestand stetig fortzuschreiben.

Das Projekt hat gezeigt, dass Korpusakquisition, -aufbereitung und -dokumentation als eine Daueraufgabe aufgefasst werden muss, damit der Wandel der deutschen Sprache in Wortschatz und auch Grammatik kontinuierlich dokumentiert und erforscht werden kann. Das Projekt hat ferner deutlich gemacht, dass die genannten kommunikativen, juristischen, textlinguistischen, technologischen und bibliografischen Arbeiten beim Aufbau eines Referenzkorpus einen hohen personellen Aufwand erfordern.


Leitung:

Cyril Belica <belica@ids-...>

 

Ulrike Haß-Zumkehr <zumkehr@ids-...>

 
Wissenschaftliche Mitarbeiter:

Brigitte O. Endres

 
Wissenschaftliche Hilfskräfte:

Christian Weiß <weiss@ids-...>

 
Studentische Hilfskräfte:

Mirko Ganz