Abschlußbericht über das Projekt MECOLB

Multilingual Environment for Corpus-Based Lexicon Building

Die Arbeiten an dem Projekt MECOLB erstreckten sich über einen Zeitraum von 18 Monaten (1. Februar 1994 bis 30. August 1995). Der Leiter der Zentralen Arbeitsstelle Linguistische Datenverarbeitung des Instituts für deutsche Sprache (IDS), Robert Neumann, war mit der Funktion des Projektkoordinators betraut.

MECOLB begriff sich als ein europäisches Konsortium, in dem Vertreter aus verschiedenen Gebieten der Wirtschaft, von Universitäten und nationalen Forschungsinstituten bei der Entwicklung von Sprachtechnologie für Wirtschaft und Wissenschaft zusammenarbeiteten.
MECOLB war in das Telematic Programm MLAP93-21 der Europäischen Union (Directorate General XIII, Telecommunications, Information Market and Exploitation of Research, Information Industry and Market and Language Processing Basic Studies in Linguistics, Luxemburg) eingebettet und stellte im Sinne dieses Programms ein Wirtschaftsentwicklungsinstrument der EU dar.

Das Institut für Deutsche Sprache arbeitete bei diesem Projekt mit den sechs Institutionen und Verantwortlichen zusammen:

  • University of Birmingham (Großbritannien), Prof. John M. Sinclair
  • MAKROLOG mbH, Wiesbaden, Andreas Herberger
  • TOSCA Research Group, Katholieke Universiteit Nijmegen (Niederlande), Prof. Jan Aarts
  • ASTRILL-LADL, Université de Paris 7 (Frankreich), Prof. Maurice Gross
  • Institut voor Nederlandse Lexicologie, Leiden (Niederlande), Prof. Piet van Sterkenburg
  • Université de Liège (Belgien), Prof. André Moulin


Das Projekt MECOLB entwickelte für die Abspeicherung und Verwaltung von großen Textmengen geeignete Tools, die die Erschließung von allgemeinen und linguistischen Informationen im besonderen aus diesen Texten unterstützen. Werkzeuge wurden programmiert, die den Aufbau und die Wartung von maschinenlesbaren Lexika und Wörterbüchern unterstützen können.

Die in diesem Projekt erstellte Software verwaltet und pflegt zum einen große Korpora (50 - 500 Millionen Wörter) und ermöglicht zum anderen sowohl den unmittelbaren Benutzern als auch "Weiterverarbeitern" - seien es Programme oder Menschen - , diese Daten computerunterstützt zu analysieren und zu annotieren. Das System integriert sowohl linguistische als auch außerlinguistische Annotationen in die Korpora und stellt Möglichkeiten zur Verfügung, um auch über diesen Annotationen zu arbeiten.

Zum Beispiel ermöglicht das bereits seit vier Jahren im IDS und weltweit erfolgreich angewendete Computersystem COSMAS die Auffindung aller Wortformen und Wortbildungen zu einer Stammform (Lemma), und MECOLB verbessert die Methoden der Informationsgewinnung aus Texten (Volltextretrieval) durch den Einsatz linguistischer Analyseverfahren. MECOLB stellt unter anderem eine Weiterprogrammierung und Leistungserweiterung des vorhandenen Systems COSMAS dar.


Die im Projekt entwickelten Werkzeuge setzen den Lexikographen und auch den Lexikonbenutzer in die Lage, als Basis für seine Arbeiten auf Daten zurückzugreifen, die noch keine Einschränkung auf ein spezielles Lexikonkonzept oder einen speziellen Sprachausschnitt enthalten.

Wesentliche Charakteristika sind:

  • Eine generalisierte Software für die Sprachverarbeitung und für Informationsgewinnung aus Texten, wobei problem- oder sprachspezifische Adaptionen dieser Software durchaus in den angebotenen Software-Rahmen eingefügt werden können.

  • Die Software realisiert das Konzept der Monitorkorpora: jeder Benutzer kann sich zu jedem Zeitpunkt seine eigene Korpuskollektion - genau angepaßt an die Probleme, die er bearbeiten will - zusammenstellen, was ein beachtlicher Vorteil gegenüber den bisherigen ungewichteten Textsammlungen ist. So lassen sich zum Beispiel aus diesen Korpora gewonnenene Wörterbücher "maßschneidern".
    Auf dieser Basis läßt sich auch das Problem der computergestützten Auffindung von Neologismen und Bedeutungswandel neu fassen und wesentlich besser als mit herkömmlichen Methoden lösen.

  • Das Projekt trägt der Vorstellung einer "europäischen" sprachunabhängigen Software Rechnung, die nur die unmittelbar erforderlichen Annahmen über sprachliche Regularitäten enthält. Mit diesen Software-Konditionen können relativ leicht sprachspezifische Lösungen für sprachspezifische Probleme unterstützt werden.