IDS-Logo
Startseite : : Organisationsstruktur : : Lexik : : Abgeschlossene Projekte : : elexiko : : Projektbeschreibung : : Methoden und Arbeitsweisen

Methoden und Arbeitsweisen

In elexiko wurden verschiedene Methoden für die Erarbeitung des Wörterbuches erprobt und angewandt, wobei das Prinzip der Korpusgestütztheit im Zentrum stand. Das elexiko-Korpus wurde durch Einsatz des Recherche- und Analysetools COSMAS ausgewertet; hierbei kam insbesondere der Methode der Kookkurrenzanalyse große Bedeutung zu.

Korpusgestütztheit

Die Wortartikel in elexiko sind korpusgestützt erarbeitet, d. h. alle Angaben beruhen auf den Ergebnissen der Analyse von elektronischen Textsammlungen.

Durch die Entwicklung der Computertechnologie und die damit verbundenen Möglichkeiten, mit Massendaten sinnvoll umzugehen, kann der Wortschatz mit Hilfe von riesigen - in Datenbanken abgelegten - elektronischen Textsammlungen, so genannten Korpora (wie z. B. das elexiko-Korpus), erfasst und dokumentiert werden. Sie sind heute eine wichtige empirische Basis für die linguistische Forschung und für die praktische Lexikografie. Ein solches Korpus benutzt man, um zuvor aufgestellte Hypothesen bzw. Annahmen zu verifizieren oder zu widerlegen, zum Beispiel:

  • Kommt ein Wort im Korpus vor und wenn ja, wie häufig?
  • Wann ist dieses Wort zum ersten Mal belegt?
  • Kommt dieses Wort nur in bestimmten Textsorten vor?

Darüber hinaus nutzt man ein Korpus in der Regel als Belegsammlung im klassischen Sinne: Man sucht nach besonders aussagekräftigen Beispielen. Für das elexiko-Wörterbuch wurde das Korpus aber vor allem mithilfe bestimmter korpuslinguistischer Anwendungen analysiert. Aus den Analyseergebnissen wird z. B. das Spektrum an Lesarten eines Stichwortes deutlich, bestimmte typische Verwendungsmuster treten hervor. Solche Erkenntnisse flossen in die Wortartikel ein und wurden in einem zweiten Schritt, wo nötig, durch gezieltes Suchen im elexiko-Korpus gestützt und ergänzt.

elexiko-Korpus

Um für die Erarbeitung des elexiko-Wörterbuches eine gute empirische Basis zugrunde legen zu können, wurde für elexiko nach formalen und inhaltlichen Kriterien aus dem Deutschen Referenzkorpus des IDS Mannheim ein umfangreiches digitales Textkorpus zusammengestellt.

Dieses Korpus war während der Arbeit an den Modulen Lexikon zum öffentlichen Sprachgebrauch und elexiko-Demonstrationswortschatz ein dynamisches Korpus (ein sogenanntes Monitorkorpus), welches jährlich erweitert und aktualisiert wurde, um die jeweils neuesten Entwicklungen verfolgen und damit aktuelle Beschreibungen liefern zu können. Da sich elexiko besonders für den öffentlichen Sprachgebrauch interessiert hat, besteht das elexiko-Korpus aus Texten aus Zeitungen und Zeitschriften. Dabei wurden nicht nur neue Jahrgänge vorhandener Zeitungen stetig akquiriert, sondern auch neue Zeitungen hinzugefügt, um regionale Besonderheiten besser aufdecken zu können. 2013 wurde das Korpus letztmalig aktualisiert. Es umfasst 31 verschiedene Quellen und einen Textbestand von 2,7 Milliarden Textwörtern und enthält in entsprechenden Proportionen sowohl bundesdeutsche, österreichische und schweizerische Texte zwischen 1949 und 2012 sowie einige wenige Texte aus der ehemaligen DDR.

Seit 2014 liegen im elexiko-Korpus folgende Zeitungen und Zeitschriften mit unterschiedlichem Umfang vor: Berliner Morgenpost, Berliner Zeitung, Braunschweiger Zeitung, Der Spiegel, Die Presse, Die Südostschweiz, die tageszeitung, Die Welt, Die Zeit, Frankfurter Allgemeine Zeitung, Frankfurter Rundschau, Hamburger Morgenpost, Hannoversche Allgemeine Zeitung, Kleine Zeitung, Mannheimer Morgen, Meldungen der Deutsche Presse Agentur, Neue Kronen-Zeitung, Niederösterreichische Nachrichten, Oberösterreichische Nachrichten, Rhein-Zeitung, Salzburger Nachrichten, St. Galler Tagblatt, Tiroler Tageszeitung, Vorarlberger Nachrichten, Züricher Tagesanzeiger.

COSMAS

Das IDS Mannheim verfügt über die weltweit größte elektronische Sammlung deutschsprachiger Texte, das Deutsche Referenzkorpus. Um diese riesige Datenmenge auswerten zu können, wurden in elexiko die am IDS entwickelten automatischen Recherche- und Analysewerkzeuge der COSMAS II-Plattform genutzt.

COSMAS II ist keine Internet-Suchmaschine, sondern ein komplexes Werkzeug zur Strukturierung von Massendaten. Es ist nicht nur nützlich zur einfachen Wort- und Volltextsuche, sondern kann für chronologische Sortierungen ebenso eingesetzt werden wie zum Erkennen von Gesetzmäßigkeiten der Wortzusammensetzung und von grammatischen Phänomenen.

Kookkurrenzanalyse

Für die Erarbeitung der lexikografischen Angaben in elexiko hatte das statistische Verfahren der Kookkurrenzanalyse einen besonderen Stellenwert, mit dem es (unter anderem) möglich ist, lexikalische Mitspieler, also typische Partnerwörter eines Stichwortes, herauszufinden und typische Wortverbindungen wie signifikante Verwendungsmuster, Redewendungen oder Sprichwörter zu entdecken. So ergeben sich z. B. für das Stichwort All typische Konstruktionen wie:

    • mit der Rakete ins All befördern
    • die Tiefen des Alls
    • die unendlichen Welten des Alls
    • Signale aus dem All
    • der Aufenthalt im All
    • Mission im All
    • der Flug ins All

    usw.

    und Kollokatoren wie:

    • Astronaut, Columbia, Kosmonaut, Raumschiff, Satellit, Space Shuttle usw.
    • Erkundungsmission, Expedition, Mondmission, Raumfahrt usw.
    • Astrophysiker, NASA, Raumfahrtbehörde, Wissenschaftler usw.

    Die Ergebnisse der Kookkurrenzanalyse waren außerdem Ausgangspunkt für die Ermittlung der Lesarten eines Stichwortes in elexiko und dienten auch z. B. zur Auffindung sinnverwandter Wörter.

    Erstellung und Pflege der elexiko-Stichwortliste

    Die elexiko-Stichwortliste umfasst ausschließlich Einwortlemmata (z. B. blind). Diese sind in ihrer jeweiligen Grund- bzw. Stammform angesetzt. Bei Nomen ist dies in der Regel der Nominativ Singular, bei Verben der Infinitiv, bei Adjektiven der Positiv (und nicht eine der Steigerungsformen). Neben den vielen "normalen" Stichwörtern gibt es auch lexikografische Zweifelsfälle. So musste aufgrund bestimmter Kritierien etwa entschieden werden, ob auch adjektivisch verwendete Partizipien (z. B. behindert) sowie bestimmte Wortbildungen (z. B. Movierungen wie Autorin) eigens in die Stichwortliste aufgenommen werden.

    Die Erzeugung der elexiko-Stichwortliste erfolgte im Wesentlichen in zwei Schritten: Zunächst wurden die im Korpus vorkommenden Wortformen auf entsprechende Grundformen zurückgeführt; diese wurden ab einer bestimmten Vorkommenshäufigkeit in die Liste der Stichwortkandidaten aufgenommen. Diese Stichwortkandidatenliste musste anschließend redaktionell nachbearbeitet und mit anderen Stichwortlisten abgeglichen werden. Ergebnis dieses Arbeitsschrittes ist die bereinigte und zum Teil systematisch ergänzte elexiko-Stichwortliste, die auch online (in links- und rechtsalphabetischer Sortierung) angezeigt wird.

    Erstellung der Wortartikel

    Für ein gedrucktes Wörterbuch gehen die Lexikografen bei dem Schreiben der Wortartikel meist nach einem so genannten Instruktionenbuch vor, in dem festgelegt ist, welche Angaben in einem Artikel enthalten sein sollen, in welcher Reihenfolge sie zu stehen haben und wie sie dargestellt werden sollen. Dabei kommt es leicht zu Uneinheitlichkeiten, vor allem, wenn mehrere Lexikografen über viele Jahre hinweg an dem Wörterbuch arbeiten. Für die Benutzung von gedruckten Wörterbüchern ist dies zwar z. T. nachteilig, aber oft nicht wirklich hinderlich für die Benutzung; will man jedoch die lexikografischen Daten elektronisch recherchieren, sind diese Inkonsistenzen sehr problematisch.

    Aus diesem Grund wurde für elexiko eine Artikelstruktur in Form einer XML-Dokumenttypdefinition (= DTD) festgehalten, d. h. das Instruktionenbuch wurde in eine formale Notation übertragen. Diese formal festgelegte Angabestruktur wird von XML-Editoren interpretiert, sodass die Lexikografen, die damit arbeiten, nicht selbst im Kopf haben müssen, in welcher Reihenfolge z. B. Angaben zu stehen haben.

    Zugleich bietet die XML-Technologie die Möglichkeit, dass die Benutzer von elexiko nicht immer den gesamten Wörterbuchartikel lesen müssen, sondern einzelne Angaben gezielt aus ihm herausgesucht und angezeigt werden können. Dabei generieren XSLT-Stylesheets aus den einzelnen XML-Instanzen HTML, das in verschiedenen Internetbrowsern angezeigt werden kann.

    Die redaktionelle Arbeitsumgebung in elexiko umfasste neben dem XML-Editor und einem eigens programmierten Vernetzungstool außerdem die Korpusrecherche- und Analysetools der COSMAS II-Plattform, verschiedene sekundäre Quellen, wie andere Internetnachschlagewerke und gedruckte Wörterbücher und Enzyklopädien, sowie einen Zugang zur Datenbank, in der die elexiko-Stichwortliste und die einzelnen Wortartikel abgelegt und verwaltet sind.