IDS-Logo
Startseite : : Organisationsstruktur : : Direktion : : Korpuslinguistik Korpuslinguistik : : Projekte : : Analysemethodik : : Lemmatisierung
LemmatisierungLemmatizationLemmatisierungLemmatisierungLemmatisierungLemmatisierung
Direktion und zentrale Forschung

Kontakt:
    <korpuslinguistik@ids-...>
 
Leitung:
    Cyril Belica <belica@ids-...>
 
Wissenschaftliche Mitarbeiter:
    Dr. Marc Kupietz <kupietz@ids-...>
    Dr. Harald Lüngen <luengen@ids-...>
    Rainer Perkuhn <perkuhn@ids-...>
 
Studentische Hilfskräfte:
    Anna Konovalova
    Theresa Sick

Methoden der Korpusanalyse und -erschließung


Lemmatisierung

Die Lemmatisierung ermöglicht, dass Flexionsformen, Zusammensetzungen und/oder sonstigen Wortbildungsformen ihre Grundformen zugeordnet werden können. Im diesem Zusammenhang sind Grundformen

  • unflektierte Simplizia verschiedener Wortarten,
  • unflektierte Ableitungen und Komposita,
  • Wortbildungsmorpheme.

Das Lemmatisierungsverfahren Flexionsanalyse und Kompositazerlegung wurde im Jahr 1994 von Cyril Belica entwickelt (Cyril Belica: WP2 - Lemmatizer. Final Report. MLAP93-21 MECOLB, Deliverable D5. Luxembourg, July 1994) und wird seitdem als ein Modul des COSMAS-Systems (siehe auch Konzeptuelle Weiterentwicklung der COSMAS-Plattform) eingesetzt.

In diesem Teilprojekt soll das Programmsystem weiter entwickelt werden mit dem Ziel, die korpusbasierte Inventarisierung des Wortschatzes weiter zu optimieren. Geplant ist die Systematisierung und Ergänzung des zugrundeliegenden elektronischen Lexikons und des Regelsystems für die morphologische Analyse und - je nach der zur Verfügung stehenden Kapazität - eventuell auch die Erweiterung der Funktionalität im Hinblick auf die neue Rechtsschreibung, auf gesprochene Sprache und auf historische Tiefe des zu lemmatisierenden Wortinventars.

Zurück zur Projektseite


Kontakt:
Cyril Belica <belica@ids-...>