Programmbereich Korpuslinguistik

© Shutterstock_417879652

Verantwortlich:  Dr. Marc Kupietz
Kontakt:  korpuslinguistik(at)ids-mannheim.de

Was ist „Korpuslinguistik“?

Das wissenschaftliche Programm der Korpuslinguistik ist es, geleitet durch die explorative Analyse von sehr großen Sammlungen natürlichsprachlicher Daten neue Einsichten in die Strukturen, Gesetzmäßigkeiten, Eigenschaften und Funktionen von Sprache zu erlangen.

Forschungsgegenstand

Vor diesem theoretischen Hintergrund wird im Programmbereich Korpuslinguistik des IDS einerseits eine Reihe von methodologischen Forschungszielen formuliert, die auf Fortschritte bei der Entwicklung von strukturentdeckenden korpusanalytischen Methoden ausgerichtet sind und verschiedene grundlegende Fragestellungen der deskriptiven Sprachwissenschaft aufgreifen. Andererseits wird durch systematische Verallgemeinerungen der so gewonnenen Erkenntnisse die Beurteilung bestehender und die Formulierung neuer, empirisch fundierter linguistischer Hypothesen und formaler Modelle angestrebt.

Die in Korpora aufgezeichneten Resultate von Kommunikationsprozessen werden dabei als empirische Grundlage sowohl für die explorative Analyse als auch für die induktive, auf Theoriebildung zielende Generalisierungsstrategie verstanden. Obwohl dieser Ansatz von lexikalischen Einheiten und deren Kontexten ausgeht, sind hier die lexikalische, syntaktische und semantische Ebene nicht voneinander getrennt: Eine fundamentale Rolle im postulierten Lexikon-Syntax-Kontinuum fällt dabei dem mit Hilfe von mathematisch-statistischen, musterorientierten Methoden in empirischen Sprachdaten operationalisierten und um Varianz und Vielgliedrigkeit erweiterten Begriff der Kookkurrenz zu. Diese Herangehensweise bezweckt das Aufdecken präferenzrelationaler Gesetzmäßigkeiten, die unter anderem dadurch gekennzeichnet sind, dass sie in Abhängigkeit von pragmatischen, sprachlichen und außersprachlichen Faktoren nicht primär regelbasiert variieren. Es können außerdem auch subtile sprachliche Strukturen aufgespürt werden, die dem Sprachgefühl individueller Sprachteilnehmer unzugänglich sind und erst durch die Analyse großer Datenmengen erschlossen werden können.

Ziele

  • Der Programmbereich ist am IDS dafür verantwortlich, den deutschen Schriftsprachgebrauch beständig und in angemessener Weise stichprobenartig im Deutschen Referenzkorpus zu dokumentieren.

  • Ausgehend von grundsätzlichen Überlegungen zur linguistischen Theoriebildung wird eine auf mathematisch-statistischen Methoden basierende Methodik der Korpusanalyse und -erschließung erarbeitet.

  • Die bei dieser methodologischen Forschungsarbeit gewonnenen Generalisierungen werden auf wissenschaftstheoretischer Ebene reflektiert und in die Diskussion der linguistischen Theoriebildung eingebracht.

  • Darüber hinaus wird die erarbeitete Methodik in Kooperationen mit anderen, z.T. externen Projekten zur Gewinnung und linguistischen Beschreibung usueller Wortverbindungen und anderer präferenzrelationaler Strukturen eingebracht.

Aktuelle projektübergreifende Forschungsschwerpunkte des Programmbereichs

  • Wissenschaftstheoretische Grundlagen der Sprachwissenschaft

  • Reflexionen über den Forschungsgegenstand Sprache

Projekte