Harald Lüngen (Gießen)

Verarbeitung text-technologischer Ressourcen im Diskursparsing

Abstract

Das Textparsing komplexer Texttypen wie wissenschaftliche Zeitschriftenartikel erfordert die Analyse eines Input-Dokuments auf verschiedenen linguistischen und strukturellen Ebenen, von denen eine die Ebene der lexikalischen Diskursmarker ist. Der Beitrag liefert einen Überblick über die Wissensquellen und Komponenten eines Diskursparsers für wissenschaftliche Zeitschriftenartikel, der im DFG-Projekt "SemDok - Generische Dokumentstrukturen in linear organisierten Texten" entwickelt wird. Der Parser ermittelt Diskursstrukturen nach der Rhetorical Structure Theory (RST). Sein Kern besteht in kaskadierten Anwendungen des sog. GAP - "Generalised Annotation Parser". Textparsing mit dem Ziel der Ermittlung einer Diskursstruktur wird betrachtet als die Hinzufügung einer weiteren Annotationsschicht für Dokumente, die auf verschiedenen linguistischen Ebenen annotiert sind.

Die Zielstruktur des Parsingprozesses ist eine XML-Anwendung für die Rhetorical Structure Theory. Als minimales Input des Parsers dient ein Dokument mit einer Annotationsschicht für Diskurssegmente, die aufgrund der logischen Dokumentstruktur vorgegeben sind, und einer Annotationsschicht für Vorkommen von Diskursmarkern. Reduce-Regeln für die Kombination von Segmenten werden aus einem Diskursmarkerlexikon generiert. Die Regeln werden angereichert mit Anwendungswahrscheinlichkeiten, die anhand der Vorkommen von Diskursmarkern im annotierten Entwicklungskorpus geschätzt werden. Der Parser ist außerdem dafür konzipiert, relevante Annotationsschichten aus Partnerprojekten zu verarbeiten, namentlich Annotationen von anaphorischen Relation und lexikalischen Ketten.

Projekthomepage:
http://www.uni-giessen.de/cms/fbz/fb05/germanistik/iprof/asclhome/forschung/semdok