IDS-Logo
Startseite : : Organisationsstruktur : : Lexik : : elexiko : : Projektbeschreibung : : Methoden und Arbeitsweisen

Methoden und Arbeitsweisen

In elexiko werden verschiedene Methoden für die Bearbeitung der einzelnen Stichwörter angewandt, wobei das Prinzip der Korpusbasiertheit im Zentrum steht. Das elexiko-Korpus wird durch Einsatz des Recherche- und Analysetools COSMAS ausgewertet; hierbei kommt insbesondere der Methode der Kookkurrenzanalyse große Bedeutung zu. Auf der Korpusbasis entstand die elexiko-Stichwortliste, alle Wortartikel werden auf dieser Grundlage erarbeitet.

Korpusbasiertheit

Für die Erarbeitung der Wortartikel in elexiko ist das Prinzip der Korpusbasiertheit entscheidend, d. h. eine starke Orientierung auf die Ergebnisse der Analyse von elektronischen Textsammlungen.

Durch die Entwicklung der Computertechnologie und die damit verbundenen Möglichkeiten, mit Massendaten sinnvoll umzugehen, kann der Wortschatz mit Hilfe von riesigen - in Datenbanken abgelegten - elektronischen Textsammlungen, so genannten Korpora (wie z. B. das elexiko-Korpus), erfasst und dokumentiert werden. Sie sind heute eine wichtige empirische Basis für die linguistische Forschung und für die praktische Lexikografie. Ein solches Korpus benutzt man, um zuvor aufgestellte Hypothesen bzw. Annahmen zu verifizieren oder zu widerlegen, zum Beispiel:

  • Kommt ein Wort im Korpus vor und wenn ja wie häufig?
  • Wann ist dieses Wort zum ersten Mal belegt?
  • Kommt dieses Wort nur in bestimmten Textsorten vor?

Darüberhinaus nutzt man ein Korpus in der Regel als Belegsammlung im klassischen Sinne: Man sucht nach besonders aussagekräftigen Beispielen. Für das elexiko-Wörterbuch wird das Korpus aber vor allem (und immer im ersten Schritt) mithilfe bestimmter korpuslinguistischer Anwendungen analysiert. Aus den Analyseergebnissen wird z. B. das Spektrum an Lesarten eines Stichwortes deutlich, bestimmte typische Verwendungsmuster treten hervor. Solche Erkenntnisse fließen in den Wortartikel ein und werden in einem zweiten Schritt, wo nötig, durch gezieltes Suchen im elexiko-Korpus gestützt und ergänzt.

elexiko-Korpus

Um für die Erarbeitung der elexiko-Wortartikel eine gute empirische Basis zugrunde legen zu können, wurde für elexiko nach formalen und inhaltlichen Kriterien aus dem Deutschen Referenzkorpus des IDS Mannheim ein umfangreiches digitales Textkorpus zusammengestellt.

Dieses Korpus ist ein dynamisches Korpus (ein so genanntes Monitorkorpus), welches regelmäßig erweitert und aktualisiert wird, um die jeweils neuesten Entwicklungen verfolgen und damit aktuelle Beschreibungen liefern zu können. Derzeit umfasst das elexiko-Korpus ca. 2,8 Milliarden Textwörter und enthält sowohl bundesdeutsche, österreichische und schweizerische Texte als auch Texte aus der ehemaligen DDR. Da sich elexiko besonders für den öffentlichen Sprachgebrauch interessiert, besteht das elexiko-Korpus aus Texten unter anderem aus folgenden Zeitungen und Zeitschriften: Berliner Morgenpost, Berliner Zeitung, Der Spiegel, Die Presse, die tageszeitung, Die Welt, Die Zeit, Frankfurter Allgemeine Zeitung, Frankfurter Rundschau, Hamburger Morgenpost, Kleine Zeitung, Mannheimer Morgen, Neue Kronen-Zeitung, Oberösterreichische Nachrichten, Salzburger Nachrichten, St. Galler Tagblatt, Tiroler Tageszeitung, Vorarlberger Nachrichten, Züricher Tagesanzeiger.

COSMAS

Das IDS Mannheim verfügt über die weltweit größte elektronische Sammlung deutschsprachiger Texte, das Deutsche Referenzkorpus. Um diese riesige Datenmenge auswerten zu können, nutzen die Lexikografen und Lexikografinnen in elexiko die am IDS entwickelten automatischen Recherche- und Analysewerkzeuge der COSMAS-II-Plattform, die für die lexikografische Arbeit systematisch eingesetzt werden.

COSMAS II ist keine Internet-Suchmaschine, sondern ein komplexes Werkzeug zur Strukturierung von Massendaten. Es ist nicht nur nützlich zur einfachen Wort- und Volltextsuche, sondern kann für chronologische Sortierungen ebenso eingesetzt werden wie zum Erkennen von Gesetzmäßigkeiten der Wortzusammensetzung und von grammatischen Phänomenen.

Kookkurrenzanalyse

Einen besonderen Stellenwert bei der Erarbeitung der elexiko-Wortartikel hat das statistische Verfahren der Kookkurrenzanalyse, mit dem es (unter anderem) möglich ist, lexikalische Mitspieler, also typische Partnerwörter eines Stichwortes, herauszufinden und typische Wortverbindungen wie signifikante Verwendungsmuster, Redewendungen oder Sprichwörter zu entdecken. So ergeben sich z. B. für das Stichwort All typische Verwendungsmuster wie:

  • ins All bringen
  • ins All fliegen
  • ins All schicken
  • ins All schießen
  • ins All starten
  • die Tiefen des Alls
  • die unendlichen Welten des Alls
  • Signale aus dem All
  • der Aufenthalt im All
  • Mission im All

usw.

und lexikalische Mitspieler wie:

  • Astronaut, Columbia, Kosmonaut, Raumschiff, Satellit, Space Shuttle usw.
  • Erkundungmission, Expedition, Mondmission, Raumfahrt usw.
  • Astrophysiker, NASA, Raumfahrtbehörde, Wissenschaftler usw.

Die Ergebnisse der Kookkurrenzanalyse sind außerdem Ausgangspunkt für die Ermittlung der Lesarten eines Stichwortes in elexiko und dienen auch z. B. zur Auffindung sinnverwandter Wörter.

Erstellung und Pflege der elexiko-Stichwortliste

In elexiko werden grundsätzlich drei eigenständige Klassen von Stichwörtern angesetzt:

  •     Einwortlemmata (z. B. blind)
  •     Mehrwortlemmata (z. B. blinder Alarm, sich blind und taub stellen)
  •     Wortelementlemmata (z. B. -ig, un-)


Zurzeit umfasst die elexiko-Stichwortliste aber überwiegend nur Einwortlemmata. Diese werden in ihrer jeweiligen Grund- bzw. Stammform angesetzt. Bei Nomen ist dies in der Regel der Nominativ Singular, bei Verben der Infinitiv, bei Adjektiven der Positiv (und nicht eine der Steigerungsformen). Neben den vielen "normalen" Stichwörtern gibt es auch lexikografische Zweifelsfälle. So musste aufgrund bestimmter Kritierien etwa entschieden werden, ob auch adjektivisch verwendete Partizipien (z. B. behindert) sowie bestimmte Wortbildungen (z. B. Movierungen wie Autorin) eigens in die Stichwortliste aufgenommen werden.

Die Erzeugung der elexiko-Stichwortliste erfolgte im Wesentlichen in zwei Schritten: Zunächst wurden die im Korpus vorkommenden Wortformen auf entsprechende Grundformen zurückgeführt; diese wurden ab einer bestimmten Vorkommenshäufigkeit in die Liste der Stichwortkandidaten aufgenommen. Diese Stichwortkandidatenliste musste anschließend redaktionell nachbearbeitet und mit anderen Stichwortlisten abgeglichen werden. Ergebnis dieses Arbeitsschrittes ist die bereinigte und zum Teil systematisch ergänzte elexiko-Stichwortliste als Ausgangspunkt für die Artikelproduktion.

Die elexiko-Stichwortliste ist dabei nicht endlich und unveränderlich, sondern wird aufgrund der fortlaufenden Korpusaktualisierung und -erweiterung immer weiter gepflegt. Man kann die Stichwortliste von elexiko also bis zu einem gewissen Grad als dynamisch und offen bezeichnen, wenngleich für das Gesamtunternehmen letztendlich 300.000 lexikalische Einheiten veranschlagt sind.

Erstellung der Wortartikel

Für ein gedrucktes Wörterbuch gehen die Lexikografen bei dem Schreiben der Wortartikel meist nach einem so genannten Instruktionenbuch vor, in dem festgelegt ist, welche Angaben in einem Artikel enthalten sein sollen, in welcher Reihenfolge sie zu stehen haben und wie sie dargestellt werden sollen. Dabei kommt es leicht zu Uneinheitlichkeiten, vor allem, wenn mehrere Lexikografen über viele Jahre hinweg an dem Wörterbuch arbeiten. Für die Benutzung von gedruckten Wörterbüchern ist dies zwar z. T. nachteilig, aber oft nicht wirklich hinderlich für die Benutzung; will man jedoch die lexikografischen Daten elektronisch recherchieren, sind diese Inkonsistenzen sehr problematisch.

Aus diesem Grund wurde für elexiko eine Artikelstruktur in Form einer XML-Dokumenttypdefinition (= DTD) festgehalten, d. h. das Instruktionenbuch wurde in eine formale Notation übertragen. Diese formal festgelegte Angabestruktur wird von XML-Editoren interpretiert, sodass die Lexikografen, die damit arbeiten, nicht selbst im Kopf haben müssen, in welcher Reihenfolge z. B. Angaben zu stehen haben.

Zugleich bietet die XML-Technologie die Möglichkeit, dass die Benutzer von elexiko nicht immer den gesamten Wörterbuchartikel lesen müssen, sondern einzelne Angaben aus ihm gezielt heraussuchen und anzeigen lassen können. Dabei generieren XSLT-Stylesheets aus den einzelnen XML-Instanzen HTML, das in verschiedenen Internetbrowsern angezeigt werden kann. Perspektivisch soll diese technologische Grundlage daher auch dazu genutzt werden, die erarbeiteten lexikografischen Daten benutzeradaptiv auswählbar und darstellbar zu machen.

Die redaktionelle Arbeitsumgebung der elexiko-Projektgruppe umfasst neben dem XML-Editor außerdem die Korpusrecherche- und analysetools der COSMAS-II-Plattform, verschiedene sekundäre Quellen wie CD-ROM- und Internetnachschlagewerke sowie gedruckte Wörterbücher und Enzyklopädien wie einen Zugang zur Datenbank, in dem die elexiko-Stichwortliste und die einzelnen Wortartikel abgelegt und verwaltet werden.