IDS-Logo
LemmatisierungLemmatizationLemmatisierungLemmatisierungLemmatisierungLemmatisierung

Direktion und zentrale Forschung

Kontakt:
    <korpuslinguistik@ids-...>
 
Leitung:
    Cyril Belica <belica@ids-...>
 
Wissenschaftliche Mitarbeiter:
    Dr. Marc Kupietz <kupietz@ids-...>
    Dr. Harald Lüngen <luengen@ids-...>
    Rainer Perkuhn <perkuhn@ids-...>
 
Studentische Hilfskräfte:
    Theresa Sick
    Daniel Wachter

Methoden der Korpusanalyse und -erschließung


Lemmatisierung

Die Lemmatisierung ermöglicht, dass Flexionsformen, Zusammensetzungen und/oder sonstigen Wortbildungsformen ihre Grundformen zugeordnet werden können. Im diesem Zusammenhang sind Grundformen

  • unflektierte Simplizia verschiedener Wortarten,
  • unflektierte Ableitungen und Komposita,
  • Wortbildungsmorpheme.

Das Lemmatisierungsverfahren Flexionsanalyse und Kompositazerlegung wurde im Jahr 1994 von Cyril Belica entwickelt (Cyril Belica: WP2 - Lemmatizer. Final Report. MLAP93-21 MECOLB, Deliverable D5. Luxembourg, July 1994) und wird seitdem als ein Modul des COSMAS-Systems (siehe auch Konzeptuelle Weiterentwicklung der COSMAS-Plattform) eingesetzt.

In diesem Teilprojekt soll das Programmsystem weiter entwickelt werden mit dem Ziel, die korpusbasierte Inventarisierung des Wortschatzes weiter zu optimieren. Geplant ist die Systematisierung und Ergänzung des zugrundeliegenden elektronischen Lexikons und des Regelsystems für die morphologische Analyse und - je nach der zur Verfügung stehenden Kapazität - eventuell auch die Erweiterung der Funktionalität im Hinblick auf die neue Rechtsschreibung, auf gesprochene Sprache und auf historische Tiefe des zu lemmatisierenden Wortinventars.

Zurück zur Projektseite


Kontakt:
Cyril Belica <belica@ids-...>