Kookkurrenzanalyse

Startseite

Organisation

Digitale Sprachwissenschaft

Korpuslinguistik

Projekte

Analysemethodik

Kookkurrenzanalyse

Teilprojekt Kookkurrenzanalyse und deren Erschließung

Kookkurrenzanalyse

Aktuelle Arbeitsschwerpunkte

Die laufenden Forschungsarbeiten konzentrieren sich auf die Untersuchung der Ähnlichkeit von Kookkurrenzprofilen (Modul Similar Collocation Profiles), auf die Modellierung semantischer Nähe (Modul Modelling Semantic Proximity) und auf die Ermittlung und Visualisierung von relevanten Verwendungsaspekten (Modul SOM: Self-Organizing Maps). Diese Module sind in ihrer jeweils aktuellen Early-Beta-Version teilweise über die Web-Schnittstelle zur Kookkurrenzdatenbank CCDB aufrufbar.

Allgemein

Die Kookkurrenzanalyse (kurzes Tutorial, Kookkurrenzdatenbank CCDB) ist eine korpusanalytische Methode zur Strukturierung von Belegmengen. Sie

ermöglicht das Aufdecken von signifikanten Regelmäßigkeiten bei der Verwendung von Wortkombinationen in den Korpora
wertet mit Hilfe mathematisch-statistischer Analyse- und Clusteringverfahren den definierbaren Kontext eines vorgegebenen Suchobjekts in beliebigen virtuellen Korpora aus
liefert Hinweise auf systematisches gemeinsames Auftreten von Wörtern (Kookkurrenzen) und ein Maß für deren Affinität (Kohäsion)
fasst Belege, die ähnliches Kookkurrenzverhalten des Wortes dokumentieren, zu Gruppen/Clustern zusammen
strukturiert diese Belegmengen ggf. hierarchisch
bietet eine entsprechende synoptische Präsentation der Belege
erfasst neben binären Wortrelationen auch usuelle phrasale Muster bis hin zu (idiomatischen) Mehrworteinheite

Das IDS stellt der Öffentlichkeit die Kookkurrenzanalyse seit 1995 integriert in einem komplexen Online-System, COSMAS, zur Verfügung. Die Kookkurrenzanalyse ist auf beliebige COSMAS-Suchobjekte anwendbar mit

optionaler Lemmatisierung
variabler Kontextgröße
ggf. automatischer Fokussierung auf den Kontext mit dem stärksten Kohäsionswert
variabler Zuverlässigkeit (d.h. Signifikanz des ersten Kookkurrenzpartners)
variabler Granularität (d.h. Signifikanz der Kookkurrenzpartner, die für die Ermittlung von Mehrworteinheiten berücksichtigt werden)
variabler Zuordnung von Belegen bei Mehrworteinheiten
Berechnung von syntagmatischen Mustern zu jedem Kookkurrenzcluster

Die Analyse

eröffnet einen empirischen Zugang zu Massendaten, indem sie Präferenzsetzungen vornimmt und hochfrequente Belegmengen ordnet und strukturiert
ermöglicht eine empirische Erfassung usueller Wortverbindungen als Kandidaten für Mehrworteinheiten der deutschen Gegenwartssprache (Phraseologismen, Redewendungen, Sprichwörter, kommunikative Formeln, Funktionsverbgefüge usw.)
dient darüber hinaus als korpuslinguistisches Arbeits- und Denkinstrument, mit dem es möglich ist, generelle Sprachstrukturen streng korpusbasiert aufzudecken, z.B. liefert sie wesentliche Informationen zur Lesartendisambiguierung, über Gebrauchskonventionen, typische Kontextualisierungen und zu Bedeutungsinterpretationen der zu beschreibenden Stichwörter

Urheberrechte

Informieren Sie sich bitte vor der Anwendung des Programms über die damit verbundenen Urheberrechte. Bei der Veröffentlichung hierauf aufbauender Forschungsergebnisse bittet der Autor um eine entsprechende kollegiale Information an <belica@ids-...>.

Zurück zur Projektseite

CCDB – die Kookkurrenzdatenbank

[siehe Keibel/Belica 2007 (pdf, 345K, englisch), CCDB-Flyer (pdf, 628K)]

Für die Weiterentwicklung von Methoden der Kookkurrenzanalyse ist es von grundlegender Bedeutung, die zur Zeit noch weitestgehend unbekannten systemisch-strukturellen Eigenschaften von Kohäsionsrelationen zwischen Wörtern oder Wortgruppen der deutschen Sprache möglichst weit aufzudecken, zu systematisieren und theoretisch zu begründen. Als empirische Basis für dieses Forschungsvorhaben hat sich das Projekt auf der Grundlage eines Korpus der Gegenwartssprache von ca. 2,2 Milliarden Textwörtern eine Kookkurrenzdatenbank zu mehr als 220.000 Stichwörtern aufgebaut. Diese enthält für jedes Wort die Ergebnisse von bis zu fünf verschiedenen Kookkurrenzanalysen (mit unterschiedlicher Parametereinstellung) in Form von Hierarchien von ähnlichen Verwendungen. Es werden bis zu 100.000 Verwendungen pro Wort und Analyse gespeichert.

Neben ihrem eigentlichen Zweck, der Erforschung der Eigenschaften von Kohäsionsrelationen für die Weiterentwicklung von Korpusanalysemethoden, eignet sich die Datenbank womöglich auch als Hilfsmittel bei der lexikografischen Arbeit. So kann man darin zum Beispiel – unter Berücksichtigung des zugrunde liegenden Korpus, der gewählten Analyseparameter und der Tatsache, dass es sich hierbei um vollautomatisch auf statistischer Basis errechnete und linguistisch nicht validierte Rohdaten handelt – schnell und einfach auf Informationen zum Kookkurrenzverhalten einzelner Lexeme zugreifen.

Für diese Zwecke und in diesem Nutzungskontext stellen wir die Kookkurrenzdatenbank CCDB auch der Öffentlichkeit an dieser Stelle teilweise zur Verfügung.

Wir weisen ausdrücklich darauf hin, dass die Nutzung dieser Datenbank unseres Erachtens die interaktive, dynamische, auf benutzerdefinierte virtuelle Korpora aufsetzende explorative Anwendung unserer Analysemethoden nicht ersetzen kann.

Zurück zur Projektseite

Lexikologische und lexikografische Erschließung der Kookkurrenzanalyse

Ein weiteres Ziel des Teilprojekts ist es, Unterstützung für die lexikologische und lexikografische Erschließung der Kookkurrenzanalyse anzubieten, um die Vielfalt der Informationen sowohl einzelner als auch einer Menge von Kookkurrenzanalysen handhabbar zu machen. Der Ansatz umfasst

Visualisierung der kohäsiven Struktur und Stärke der Kookkurrenzpartner
die Möglichkeit des Fokussierens einzelner Bereiche bzw. des Navigierens in einzelne Bereiche der visualisierten Struktur
verschiedene Möglichkeiten der lexikologischen und lexikografisch-redaktionellen Nachbearbeitung
eine Schnittstelle zur CCDB

Kontakt

Rainer Perkuhn <perkuhn@ids-...>

zur Kookkurrenzdatenbank

Kookkurrenzanalyse

Aktuelle Arbeitsschwerpunkte

Allgemein

Die Analyse

Urheberrechte

CCDB – die Kookkurrenzdatenbank

Lexikologische und lexikografische Erschließung der Kookkurrenzanalyse

Kontakt

Organisationsstruktur

Informationen

Schnelleinstieg

Kontakt

Social Media