IDS-Logo

Pragmatik

POS für(s) FOLK - Entwicklung eines automatisierten Part-of-Speech-Tagging von spontansprachlichen Daten

Ziel des Dissertationsprojektes "POS für(s) FOLK - Entwicklung eines automatisierten Part-of-Speech-Tagging von spontansprachlichen Daten" von Swantje Westpfahl ist es, das FOLK Korpus mit Part-of-Speech-Tags zu annotieren.
State of the Art Tagger wie beispielsweise der Treetagger für das Deutsche mit dem STTS-Tagset performen nur mit einer Genauigkeit zwischen 60% und 80% auf Transkripten aus dem FOLK Korpus.
Basierend auf einer wissenschaftlichen Analyse der strukturellen Unterschiede zwischen schriftsprachlichen Daten und transkribierten Gesprochene-Sprache-Daten werden bereits bestehende Tools zur Wortartenannotation von deutschen Texten angepasst. Durch Anpassung des Tagsets STTS an typische gesprochensprachliche Phänomene und Erstellen eines Goldstandards für spontansprachliche Daten soll die Grundlage für eine später automatisierte POS-Annotation gelegt werden.
Die Anpassung des Tagsets erfolgt in Kooperation mit der AG "Gesprächspartikeln" des STTS-Workshop "Das STTS-Tagset für Wortartentagging: Stand und Perspektiven" und Prof. Dr. Hardarik Blühdorn der Abteilung Grammatik des IDS Mannheim.
Darstellungen dazu finden sich bei

  • Westpfahl, Swantje (2014): STTS 2.0? Improving the Tagset for the Part-of-Speech-Tagging of German Spoken Data. In: Lori Levin und Manfred Stede (eds.): Proceedings of LAW VIII - The 8th Linguistic Annotation Workshop. Dublin, Ireland: Association for Computational Linguistics and Dublin City University, pp. 1-10. Online verfügbar unter http://www.aclweb.org/anthology/W14-4901.
  • Westpfahl, Swantje/Schmidt, Thomas (2013): POS für(s) FOLK - Part of Speech Tagging des Forschungs- und Lehrkorpus Gesprochenes Deutsch. In: Journal for Language Technology and Computational Linguistics, H. 1, S. 139-156.

Hilfskräfte:

  • Anton Borlinghaus
  • Jasmin Jonietz
  • Mira Heilmann

Betreuer der Arbeit sind:

Kooperationspartner sind:

  • Thomas Bartz, Mitarbeiter im BMBF-Verbundprojekt: "Korpus-basierte linguistische Recherche und Analyse mit Hilfe von Data-Mining" (KobRA) (Universität Dortmund)
  • Priv.-Doz. Dr. Michael Beißwenger, Privatdozent am Lehrstuhl Linguistik der deutschen Sprache und Sprachdidaktik der Universität Dortmund
  • Prof. Dr. Hardarik Blühdorn, wissenschaftlicher Angestellter in der Abteilung Grammatik des IDS.
  • Dr. Hagen Hirschmann, Mitarbeiter am Institut für deutsche Sprache und Linguistik der Humboldt-Universität zu Berlin
  • Ines Rehbein, Mitarbeiterin im Projekt B6 "Das Kiezdeutschkorpus" im Sonderforschungsbereich 632 "Informationsstruktur" der Universität Potsdam
  • Prof. Dr. Angelika Storrer, Leiterin des Lehrstuhls Germanistische Linguistik der Universität Mannheim
  • Prof. Dr. Carola Trips, Lehrstuhl Anglistik IV der Universität Mannheim
  • Prof. Dr. Heike Zinsmeister, Professorin für Linguistik des Deutschen/Korpuslinguistik der Universität Hamburg