Teilprojekt Kookkurrenzanalyse und deren Erschließung

Kookkurrenzanalyse

Aktuelle Arbeitsschwerpunkte

Die laufenden Forschungsarbeiten konzentrieren sich auf die Untersuchung der Ähnlichkeit von Kookkurrenzprofilen (Modul Similar Collocation Profiles), auf die Modellierung semantischer Nähe (Modul Modelling Semantic Proximity) und auf die Ermittlung und Visualisierung von relevanten Verwendungsaspekten (Modul SOM: Self-Organizing Maps). Diese Module sind in ihrer jeweils aktuellen Early-Beta-Version teilweise über die  Web-Schnittstelle zur Kookkurrenzdatenbank CCDB aufrufbar.

Allgemein

Die Kookkurrenzanalyse (kurzes Tutorial, Kookkurrenzdatenbank CCDB) ist eine korpusanalytische Methode zur Strukturierung von Belegmengen. Sie

  • ermöglicht das Aufdecken von signifikanten Regelmäßigkeiten bei der Verwendung von Wortkombinationen in den Korpora
  • wertet mit Hilfe mathematisch-statistischer Analyse- und Clusteringverfahren den definierbaren Kontext eines vorgegebenen Suchobjekts in beliebigen virtuellen Korpora aus
  • liefert Hinweise auf systematisches gemeinsames Auftreten von Wörtern (Kookkurrenzen) und ein Maß für deren Affinität (Kohäsion)
  • fasst Belege, die ähnliches Kookkurrenzverhalten des Wortes dokumentieren, zu Gruppen/Clustern zusammen
  • strukturiert diese Belegmengen ggf. hierarchisch
  • bietet eine entsprechende synoptische Präsentation der Belege
  • erfasst neben binären Wortrelationen auch usuelle phrasale Muster bis hin zu (idiomatischen) Mehrworteinheite

Das IDS stellt der Öffentlichkeit die Kookkurrenzanalyse seit 1995 integriert in einem komplexen Online-System, COSMAS, zur Verfügung. Die Kookkurrenzanalyse ist auf beliebige COSMAS-Suchobjekte anwendbar mit

  • optionaler Lemmatisierung
  • variabler Kontextgröße
  • ggf. automatischer Fokussierung auf den Kontext mit dem stärksten Kohäsionswert
  • variabler Zuverlässigkeit (d.h. Signifikanz des ersten Kookkurrenzpartners)
  • variabler Granularität (d.h. Signifikanz der Kookkurrenzpartner, die für die Ermittlung von Mehrworteinheiten berücksichtigt werden)
  • variabler Zuordnung von Belegen bei Mehrworteinheiten
  • Berechnung von syntagmatischen Mustern zu jedem Kookkurrenzcluster

Die Analyse

  • eröffnet einen empirischen Zugang zu Massendaten, indem sie Präferenzsetzungen vornimmt und hochfrequente Belegmengen ordnet und strukturiert
  • ermöglicht eine empirische Erfassung usueller Wortverbindungen als Kandidaten für Mehrworteinheiten der deutschen Gegenwartssprache (Phraseologismen, Redewendungen, Sprichwörter, kommunikative Formeln, Funktionsverbgefüge usw.)
  • dient darüber hinaus als korpuslinguistisches Arbeits- und Denkinstrument, mit dem es möglich ist, generelle Sprachstrukturen streng korpusbasiert aufzudecken, z.B. liefert sie wesentliche Informationen zur Lesartendisambiguierung, über Gebrauchskonventionen, typische Kontextualisierungen und zu Bedeutungsinterpretationen der zu beschreibenden Stichwörter

Urheberrechte

Informieren Sie sich bitte vor der Anwendung des Programms über die damit verbundenen Urheberrechte. Bei der Veröffentlichung hierauf aufbauender Forschungsergebnisse bittet der Autor um eine entsprechende kollegiale Information an <belica@ids-...>.

Zurück zur Projektseite

CCDB – die Kookkurrenzdatenbank

[siehe Keibel/Belica 2007 (pdf, 345K, englisch), CCDB-Flyer (pdf, 628K)]

Für die Weiterentwicklung von Methoden der Kookkurrenzanalyse ist es von grundlegender Bedeutung, die zur Zeit noch weitestgehend unbekannten systemisch-strukturellen Eigenschaften von Kohäsionsrelationen zwischen Wörtern oder Wortgruppen der deutschen Sprache möglichst weit aufzudecken, zu systematisieren und theoretisch zu begründen. Als empirische Basis für dieses Forschungsvorhaben hat sich das Projekt auf der Grundlage eines Korpus der Gegenwartssprache von ca. 2,2 Milliarden Textwörtern eine Kookkurrenzdatenbank zu mehr als 220.000 Stichwörtern aufgebaut. Diese enthält für jedes Wort die Ergebnisse von bis zu fünf verschiedenen Kookkurrenzanalysen (mit unterschiedlicher Parametereinstellung) in Form von Hierarchien von ähnlichen Verwendungen. Es werden bis zu 100.000 Verwendungen pro Wort und Analyse gespeichert.

Neben ihrem eigentlichen Zweck, der Erforschung der Eigenschaften von Kohäsionsrelationen für die Weiterentwicklung von Korpusanalysemethoden, eignet sich die Datenbank womöglich auch als Hilfsmittel bei der lexikografischen Arbeit. So kann man darin zum Beispiel – unter Berücksichtigung des zugrunde liegenden Korpus, der gewählten Analyseparameter und der Tatsache, dass es sich hierbei um vollautomatisch auf statistischer Basis errechnete und linguistisch nicht validierte Rohdaten handelt – schnell und einfach auf Informationen zum Kookkurrenzverhalten einzelner Lexeme zugreifen.

Für diese Zwecke und in diesem Nutzungskontext stellen wir die Kookkurrenzdatenbank CCDB auch der Öffentlichkeit an dieser Stelle teilweise zur Verfügung.

Wir weisen ausdrücklich darauf hin, dass die Nutzung dieser Datenbank unseres Erachtens die interaktive, dynamische, auf benutzerdefinierte virtuelle Korpora aufsetzende explorative Anwendung unserer Analysemethoden nicht ersetzen kann.

Zurück zur Projektseite

Lexikologische und lexikografische Erschließung der Kookkurrenzanalyse

Ein weiteres Ziel des Teilprojekts ist es, Unterstützung für die lexikologische und lexikografische Erschließung der Kookkurrenzanalyse anzubieten, um die Vielfalt der Informationen sowohl einzelner als auch einer Menge von Kookkurrenzanalysen  handhabbar zu machen. Der Ansatz umfasst

  • Visualisierung der kohäsiven Struktur und Stärke der Kookkurrenzpartner
  • die Möglichkeit des Fokussierens einzelner Bereiche bzw. des Navigierens in einzelne Bereiche der visualisierten Struktur
  • verschiedene Möglichkeiten der lexikologischen und lexikografisch-redaktionellen Nachbearbeitung
  • eine Schnittstelle zur CCDB

Kontakt

Rainer Perkuhn <perkuhn@ids-...>