IDS-Logo

Pragmatik

SegCor – ANR-DFG-Projekt „Segmentation of Oral Corpora“

Projektleiter:

Thomas Schmidt, IDS Mannheim und Véronique Traverso, ICAR

Projektmitarbeiter (deutsche Arbeitsgruppe):

Arnulf Deppermann, Joachim Gasch, Jan Gorisch, Henrike Helmer, Nadine Proske, Swantje Westpfahl

Projektmitarbeiter (französische Arbeitsgruppe 1):

Heike Baldauf-Quilliatre, Biagio Ursi, Carole Etienne, Emilie Jouin-Chardon, Prof. Nathalie Rossi-Gensane

Projektmitarbeiter (französische Arbeitsgruppe 2):

Lotfi Abouda, Olivier Baude, Flora Badin, Iris Eshkol, Layal Kanaan-Caillol, Marie Skrovec

Laufzeit des Projekts:

März 2016 - Februar 2019

Seit Beginn der Forschung an gesprochener Sprache wurde eine Vielzahl von Vorschlägen zur Segmentierung gesprochener Sprache gemacht. Dennoch existiert bisher kein Segmentierungssystem, das sowohl linguistisch fundiert als auch praktisch operationalisierbar ist für große Korpora gesprochener Sprache. Dies erschwert die Nutzung dieser Korpora für die Forschung, einerseits für linguistische Analysen der Gesprochene-Sprache-Forschung oder den Sprachvergleich mit anderen Sprachen, andererseits auch für die Entwicklung von Sprachtechnologie. 

Forschungsgegenstand und -ziele:

Ziel dieses Projekts ist daher, Methoden der Segmentierung gesprochener Sprache zu entwickeln. Diese sollen einerseits linguistisch fundiert sein und andererseits auch adäquat, sowohl für die Analyse von Spontansprache auf verschiedenen linguistischen Ebenen als auch für die Weiterverarbeitung mit sprachtechnologischen Werkzeugen. Die Veröffentlichung einer Guideline zur systematischen Segmentierung für verschiedene Datentypen deutscher und französischer Sprache ist ein Meilenstein dieses Forschungsvorhabens. In einem weiteren Schritt sollen Möglichkeiten der Automatisierung der Segmentierung gesprochener Sprache auf Basis der entwickelten Guidelines erprobt und dokumentiert werden. Auf diese Weise wird das Projekt nicht nur die Nutzbarkeit der drei beteiligten Datenbanken erweitern sondern auch unser Verständnis von Strukturen der gesprochenen Sprache vertiefen.  Als Datengrundlage für dieses Projekt dienen auf der deutschen Seite das FOLK-Korpus (Forschungs- und Lehrkorpus Gesprochenes Deutsch), auf der französischen Seite die Datenbank CLAPI (Corpus de LAngue Parlée en Interaction) und das ESLO corpus (Enquêtes sociolinguistiques à Orléans).

Kooperation:

SegCor ist ein von der Deutschen Forschungsgemeinschaft und der französischen ANR gefördertes Projekt. Im Projekt kooperiert die Abteilung Pragmatik des Instituts für Deutsche Sprache mit zwei französischen Partnern: dem ICAR (Interactions, Corpus, Apprentissages, Représentations) der Université de Lyon und dem LLL (Laboratoire Ligérien de Linguistique) der Université d’Orleans.