IDS-Logo
Direktion und zentrale Forschung

Programmbereich Korpuslinguistik
Methoden der Korpusanalyse und -erschließung


Eine kurze Einführung in die Kookkurrenzanalyse und syntagmatische Muster

Programmbereich Korpuslinguistik
Institut für Deutsche Sprache
Postfach 10 16 21,
D-68016 Mannheim
email: korpuslinguistik@ids-mannheim.de
Erstveröffentlichung: 22. April 2004

Zitierhinweise

Bitte zitieren Sie dieses Dokument in der folgenden Form:

Rainer Perkuhn und Cyril Belica: Eine kurze Einführung in die Kookkurrenzanalyse und syntagmatische Muster. Institut für Deutsche Sprache, Mannheim. 2004. http://www1.ids-mannheim.de/kl/misc/tutorial.html

Falls Sie eine Referenz auf die hier beschriebene Kookkurrenzanalyse selber wünschen, wählen Sie bitte folgende Angabe:

Cyril Belica: Statistische Kollokationsanalyse und -clustering. Korpuslinguistische Analysemethode. Institut für Deutsche Sprache, Mannheim. 1995. http://corpora.ids-mannheim.de/

Weiterführende Veröffentlichungen zu diesem Thema finden Sie über die jeweiligen persönlichen Webseiten der Mitarbeiter des Programmbereichs Korpuslinguistik. Bei Interesse können Sie aber auch gerne mit uns per Email unter der o.g. Adresse Kontakt aufnehmen.

Vorbemerkung

Stellen Sie sich vor, bei der Zubereitung eines Käsekuchens haben Sie 100 Rosinen in den Teig gegeben. Nachdem Sie drei Stücke, d.h. ungefähr ein Viertel, gegessen haben, sind Sie ganz enttäuscht, weil Sie erst 10 von den 100 Rosinen (nur ein Zehntel!) wieder entdeckt haben. Läßt Sie das nicht stutzig werden? Hätten es nicht ungefähr 25 Rosinen sein müssen? Na gut, mit einer leichten Abweichung (3 oder 5?) hätten Sie leben können. Aber nur 10? Andrerseits wären Sie sehr wahrscheinlich froh, aber genau so verwundert, wenn Sie deutlich mehr als 30 Rosinen in Ihrem Viertel gefunden hätten. Vielleicht hätten Sie vermutet, dass irgendeine magische Anziehungskraft dafür gesorgt hat, dass sich die Rosinen verstärkt in einem Bereich sammeln.

In dem Käsekuchen-Szenario mag die Anziehungskraft zunächst nicht nur magisch, sondern auch mystisch anmuten. Weniger mystisch wäre die Kraft aber sicherlich, wenn der Kuchen nicht vertikal sondern horizontal aufgeschnitten wird. Vorausgesetzt, der Teig wäre sehr flüssig gewesen, dann wäre die Schwerkraft eine sehr plausible Erklärung, warum im oberen Viertel deutlich weniger, im unteren Viertel deutlich geballt Rosinen zu finden sind.

Wörter verteilen sich leider nicht so in der Sprache wie Rosinen im Käsekuchen. Und “Aufschneiden” kann man die Sprache auf viele verschiedene Arten. Eine Erklärung für die mystische Anziehungskraft bei sprachlichen Phänomenen zu finden gestaltet sich sicher viel schwieriger als beim Käsekuchen

Unter Kookkurrenzanalyse (bisweilen auch Kollokationsanalyse genannt) versteht man verschiedene, auf mathematisch-statistischen Verfahren basierende Methoden zur Analyse von Korpora. Die hier beschriebene Methode wurde in den Jahren 1994 und 1995 von Cyril Belica konzipiert und steht seidem den Linguisten auf der ganzen Welt über das COSMAS-System zur Verfügung, um die weltweit größte elektronische Sammlung deutschsprachiger Texte für die linguistische Forschung, das Deutsche Referenzkorpus, noch besser erschließen zu können.

Für die Kookkurrenzanalyse ist ein Stück aus dem Kuchen auszuschneiden, d.h. ein Ausschnitt aus den Korpora zu definieren. Die Analyse bewertet dann, wie wahrscheinlich oder unwahrscheinlich es ist, dass die Wörter in dem Ausschnitt zufälligerweise so oft in dem Ausschnitt vorkommen, wie sie vorkommen. Die Wörter, die auffällig öfter vertreten sind als erwartet, werden angezeigt. Es ist dann die Aufgabe einer weitergehenden Interpretation zu ergründen, welche Anziehungskraft zu diesem Befund geführt hat. Die Auswahl des Korpusausschnitts kann im Prinzip nach ganz verschiedenen Kriterien erfolgen: Texte einer bestimmten Zeit, aus einer bestimmten Region, von einem bestimmten Autor oder zu einem bestimmten Thema. Normalerweise geschieht dies aber über Korpusauswahl, Suche nach einem bestimmten Wort bzw. einer Wortform und Kontextdefinition. Für die folgenden Beschreibungen gehen wir von dieser Variante aus. Für die Interpretation liegt es dann nahe, von einer Kohäsion in Bezug auf das Auswahlkriterium, bei einer Suche von einer Affinität zu dem Suchbegriff auszugehen …

Die Kookkurrenzanalyse ist kein einzelnes, starres Verfahren, vielmehr eröffnet sie eine ganze Bandbreite von Möglichkeiten. So wie es verschiedene Phänomene in der Sprache gibt, die untersuchenswert sind, so gibt es unterschiedliche Arten, Kookkurrenzanfragen zu formulieren. Nach der Korpusauswahl und der Suchanfrage ist der zu analysierende Kontext zu definieren und es sind die Werte verschiedener Parameter festzulegen. Für den Kontext und die Parameter werden Standardwerte vorgeschlagen, die sich bereits für viele Fragestellungen bewährt haben.

Wir empfehlen, Analysen zunächst mit diesen Standardwerten durchzuführen. Mit ein wenig Erfahrung lohnt es sich dann sicher, ein wenig zu “experimentieren” und die Werte einzelner Parameter zu variieren. Diese kleine Tutorial ist eher technisch gehalten und soll dazu dienen, das Verständnis dafür zu fördern, welche Auswirkung es auf die Analyse hat, wenn der Wert eines Parameters verändert wird.

Kurz zusammengefasst:

  • Die Kookkurrenzanalyse ermöglicht das Aufdecken von signifikanten Regelmäßigkeiten bei der Verwendung von Wortkombinationen.
  • “Signifikanz” hängt vom betrachteten Korpus und den eingestellten Parametern ab!
  • Interpretation ist Aufgabe des Menschen!

Annahmen

  • gewisse Vertrautheit mit COSMAS
    • insbesondere Suchanfragen
    • Kookkurrenzanalyse bereits ausprobiert
  • Schwerpunkte
    • nach abgeschlossener Suche
    • Parameter der Kookkurrenzanfrage

Suchanfrage

Ausgangspunkt für die Kookkurrenzanalyse sind die vereinigten Kontexte aller Trefferobjekte einer Suchanfrage. Nach Korpusauswahl bzw. virtueller Zusammenstellung ist zunächst eine Suchanfrage zu formulieren. Bei deren Formulierung ist darauf zu achten, dass die Wortform[en], die Gegenstand der Untersuchung sein soll[en], den eindeutigen Kern des Trefferobjektes ausmachen (Position 0 in der Tabelle unten). Dies gilt trivialerweise für die Suche nach einer bestimmten Wortform oder nach den Wortformen, denen dieselbe Grundform (oder derselbe reguläre Ausdruck) zugrundeliegt. Bei komplexeren Suchanfragen (Verknüpfung über Abstandsoperatoren, logische Operatoren o.ä.) ist dies nicht garantiert: der Kern kann von Treffer zu Treffer verschieden sein. Daraus ergibt sich, dass die Kontexte der Trefferobjekte sehr uneinheitlich sind und dass deren Analyse zu Ergebnissen führt, deren Aussagekraft nicht abschätzbar ist.

Generell gilt, dass die Anzahl der Treffer nicht zu klein sein darf, damit die statistischen Analysen verläßliche Aussagen liefern können.

Suchergebnis zu der Wortform “Stücken”

Für die Erläuterungen im weiteren Verlauf sei angenommen, dass nach der Wortform “Stücken” gesucht wurde. Folgende Tabelle illustriert zeilenweise das Suchergebnis anhand dreier (strukturell prototypischer) Vertreter.

Position: -10 -9 -8 -7 -6 -5 -4 -3 -2 -1 0 1 2 3 4 5 6 7 8 9 10
Wortform xxxx xxxx xxxx xxxx xxxx xxxx xxxx xxxx xxxx xxxx Stücken xxxx xxxx xxxx xxxx xxxx xxxx xxxx xxxx xxxx xxxx
xxxx xxxx xxxx xxxx xxxx xxxx . xxxx xxxx xxxx Stücken xxxx xxxx xxxx xxxx xxxx xxxx xxxx xxxx xxxx xxxx
xxxx xxxx xxxx xxxx xxxx xxxx xxxx xxxx xxxx xxxx Stücken xxxx xxxx xxxx . xxxx xxxx xxxx xxxx xxxx xxxx

Kookkurrenzanfrage

Für eine Kookkurrenzanfrage können verschiedene Parameter eingestellt werden. Einige der Parameter legen den zu analysierenden Kontext fest, andere Parameter steuern die Vorgehensweise bei der Analyse. Schließlich gibt es Parameter, die sich auf die Darstellung der Ergebnisse auswirken.

[Die Eingabemaske für die Parameter kann in der aktuellen COSMAS Version (z.Z. COSMAS II) in der Darstellung leicht von der hier gezeigten abweichen, die Parameter und die Eingabemöglichkeiten stehen aber unter jeder Version gleichermaßen zur Verfügung.]


COSMAS-Kollokationsanalyse
Analyseparameter
zu analysierender Kontext Wörter links
Wörter rechts
höchstens 1 Satz [Über Satzgrenzen hinaus analysieren?]
Autofokus [Typische Stellung der Kollokatoren im Kontext ermitteln? (zeitaufwändig)]
Granularität [Wie intensiv sollen Mehrwortgruppen gesucht werden?] [»grob« fokussiert die Analyse auf Schlagwörter, »fein« spürt Ausdrücke auf.] since 1995
Zuverlässigkeit [Ziehen Sie Ausbeute oder Zuverlässigkeit vor (recall vs. precision)?] [Mit »hoch« maximieren Sie die Zuverlässigkeit, mit »analytisch« erreichen Sie die maximale Ausbeute.]
Clusterzuordnung [Was tun, wenn ein Beleg mehreren Kollokationsclustern zugeordnet werden kann?] [Bei »eindeutig« werden Ambiguitäten zugunsten des stärksten Kollokationsclusters aufgelöst.] [Bei »mehrfach« werden Belege in alle relevanten Kollokationscluster eingefügt.]
Lemmatisierung [Sollen als Kollokatoren Lemmata oder Textwörter gesucht werden?] verwenden
Funktionswörter [Sollen auch Funktionswörter (z.B. Präpositionen, Artikel) und Satzzeichen als Kollokatoren gesucht werden?] ignorieren
LLR-Wert [Soll der interne Wert für die ermittelte Stärke der lexikalischen Kohäsion angezeigt werden?] anzeigen
Alle Parameter auf Standardwerte

KA erste Parameter

  • zunächst wird die Größe des zu analysierenden Kontextes gewählt (ein Standardwert wäre 5 links und 5 rechts)
  • dann ist zu entscheiden, ob Satzgrenzen berücksichtigt werden sollen oder nicht

Verändern Sie die Werte in obigem Formular und klicken Sie irgendwohin (nur nicht auf “zurücksetzen” oder “Analyse starten”), um die Auswirkung auf den zu analysierenden Kontext in der Tabelle unten anschaulich nachvollziehen zu können.

Position: -10 -9 -8 -7 -6 -5 -4 -3 -2 -1 0 1 2 3 4 5 6 7 8 9 10
Wortform xxxx xxxx xxxx xxxx xxxx xxxx xxxx xxxx xxxx xxxx Stücken xxxx xxxx xxxx xxxx xxxx xxxx xxxx xxxx xxxx xxxx
xxxx xxxx xxxx xxxx xxxx xxxx . xxxx xxxx xxxx Stücken xxxx xxxx xxxx xxxx xxxx xxxx xxxx xxxx xxxx xxxx
xxxx xxxx xxxx xxxx xxxx xxxx xxxx xxxx xxxx xxxx Stücken xxxx xxxx xxxx . xxxx xxxx xxxx xxxx xxxx xxxx

KA Vorgehensweise

  • jedes der im definierten Kontext eines Trefferobjekts enthaltenen (blauen) Wörter wird gezählt
  • die ermittelte Anzahl wird verglichen mit dem Wert, der zu erwarten wäre (wenn das Wort zufälligerweise im Kontext des Bezugswortes wäre)
  • als Ergebnis wird das log-likelihood-ratio (LLR) als Maßzahl für die Abweichung des normalen Verhaltens vom beobachteten festgehalten
    • [bei bekannter Gesamthäufigkeit f im Gesamtkorpus mit dem Umfang z.B. K = 2 * 109 und diesem Umfang der Stichprobe T = Kontextbreite * Anzahl Treffer (letztere eventuell durch 104 nach oben beschränkt)]

    Wortform \ Häufigkeit in Treffermenge im Gesamtkorpus log-likelihood-ratio
    (x_ _ _,y_ _ _,T,K)
    w001 x001 y001 z001
    w002 x002 y002 z002
    w003 x003 y003 z003
    w999 x999 y999 z999

Lemmatisierung

  • bei eingeschalteter Lemmatisierung werden die Wortformen nicht einzeln ausgewertet, sondern alle Wortformen, die auf dasselbe Lemma zurückgeführt werden können, werden zusammen ausgewertet
  • dieser Schritt wird nur für die Wortformen in dem Kontext des Bezugswortes angewandt, nicht für das Bezugswort selbst! Ob dieses als Wortform oder Lemma gehandhabt werden soll, entscheiden Sie bereits bei der Formulierung der Suchanfrage
    Wortformmenge \ Häufigkeit in Treffermenge im Gesamtkorpus log-likelihood-ratio
    (xl_ _ _,yl_ _ _,T,K)
    wl001.1 ∪ wl001.2 ∪ … xl001 = xl001.1 + xl001.2 + … yl001 = yl001.1 + y001.2 + … zl001
    wl002.1 ∪ wl002.2 ∪ … xl002 = xl002.1 + xl002.2 + … yl002 = yl002.1 + y002.2 + … zl002
    wl003.1 xl003 = xl003.1 yl003 = yl003.1 zl003
    wl999.1 xl999 = xl999.1 yl999 = yl999.1 zl999

  • alle Wortformen wl00x.i, die in der Treffermenge vorhanden sind und die als Formen desselben Lemmas wl00x gedeutet werden, werden zu einer Menge zusammengefaßt, ihre Häufigkeiten in der Treffermenge und im Gesamtkorpus zusammengezählt
  • der LLR-Wert wird ausgehend von diesen kumulierten Häufigkeiten berechnet
    • [dies kann manchmal nützlich sein, ist meistens aber eher ungünstig, da viele Wortverbindungen relativ starr sind und nicht in allen Flexionsformen zusammen auftreten; - sobald eine im Gesamtkorpus sehr häufige Wortform (großes yl00x.i) auch nur minimal in der Treffermenge vertreten ist (kleines xl00x.i), steigt für diese starren Verbindungen bei eingeschalteter Lemmatisierung die Anzahl der “Gegenbeispiele” (∑ yl00x._ - ∑ xl00x._), so dass sie nicht mehr als signifikant erkannt werden können (kleineres zl00x)]

Funktionswörter

  • Funktionswörter kommen sehr häufig in der Sprache und somit auch in den Korpora vor
  • in vielen Fällen sind sie auch sehr stark in den Treffermengen vertreten und verdrängen dadurch evtl. andere (interessantere?) Partner
  • werden Funktionswörter mit in die Analyse einbezogen, können syntaktische Phänomene interessantere Erkenntnisse überdecken
  • für manche Wortverbindungen sind aber gerade die Funktionswörter von Bedeutung
    • [geplant ist mittelfristig, eine hierarchisch gegliederte Liste anzubieten, aus der einzelne Klassen an- oder abwählbar sind, vorläufig kann nur empfohlen werden, zunächst in der Analyse auf Funktionswörter zu verzichten und diese erst später miteinzubeziehen, wenn bereits erste Erkenntnisse über das Verhalten des untersuchten Wortes vorliegen]

Zuverlässigkeit

  • inwieweit die Abweichung “beobachtet vs. normal” als relevant eingestuft werden soll, kann in drei Abstufungen vorgegeben werden
    • hoch: nur starke Abweichungen sind relevant
      • [findet wenige Kookkurrenzpartner, aber diese zuverlässig, ignoriert aber evtl. interessante Kandidaten, z.B. zufällig aufgrund Korpusauswahl und -komposition]
    • normal: mittlere Abweichungen sind relevant
    • analytisch: schwache Abweichungen sind relevant
      • [findet viele Kookkurrenzpartner, aber diese evtl. unzuverlässig, kann u.U. auch schlechte Kandidaten mit erfassen]

    Wortform nach LLR-Rang log-likelihood-ratio als primärer Partner
    berücksichtigt bei
    Zuverlässigkeit =
    wRang(1, [z001-z999]) z001' hoch normal analytisch
    wRang(2, [z001-z999]) z002'
    wRang(3, [z001-z999]) z003'
    ignoriert
    ignoriert
    ignoriert
    wRang(999, [z001-z999]) z999'

Primärer Kookkurrenzpartner

  • durch dieses Verfahren wird der erste (primäre) Kookkurrenzpartner gefunden, z.B. “aus” bei “Stücken”
  • die Abweichung wird als LLR-Wert (früher Γ) angezeigt und bezieht sich auf diesen ersten ermittelten Kookkurrenzpartner (!)
  • die Gesamtheit der Umgebungen des Kookkurrenzpartners ist Ausgangspunkt für sich nun wiederholende Schritte

Kookkurrenzpartner n. Stufe

  • erneut wird ermittelt, ob ein Wort häufiger (in der Umgebung von Bezugswort und bisher ermittelter Partner) vorkommt als erwartet (gezählt und verglichen)
  • ist dies der Fall, wird das Wort als Kookkurrenzpartner der nächsten Stufe festgehalten (ohne LLR-Wert)
  • dies wiederholt sich in der Breite für alle Kookkurrenzpartner und in der Tiefe, bis keine weiteren Kookkurrenzpartner ermittelt werden können
    • [im nächsten Schritt z.B., ob Wörter in der Nähe von “frei” und “Stücken” überdurchschittlich häufig vorkommen]
  • als Kandidaten für Kookkurrenzpartner n. Stufe werden nur Wörter berücksichtigt, die bereits als primärer Kookkurrenzpartner ermittelt wurden
  • komplett sieht die berechnete Information so aus:
    Bezugswort Wortform nach LLR-Rang log-likelihood-ratio Partner n. Stufe
    wwww wRang(1, [z001-z999]) z001'
    w1.1 w1.1.1 w1.1.1.1
    w1.1.2 w1.1.2.1
    w1.1.2.2
    w1.1.3
    w1.2 w1.2.1 w1.2.1.1
    w1.2.1.2
    w1.2.2
    w1.3
    wRang(2, [z001-z999]) z002'
    w2.1 w2.1.1 w2.1.1.1
    w2.1.1.2
    w2.1.2
    w2.1.3 w2.1.3.1
    w2.1.4 w2.1.4.1
    w2.1.4.2
    w2.1.5
    w2.2
    wRang(3, [z001-z999]) z003'

    Beispiel:

    Bezugswort Wortform nach LLR-Rang log-likelihood-ratio Partner n. Stufe
    Stücken frei 9458
    nachfolgen jung Frau
    jung Frau
    verlassen
    ganz

    zeilenweise Darstellung:

    Bezugswort: Stücken

    BelegNr.
    (ab Nr. + Anzahl)
     LLR  Partner Häufigkeit
    1 + 42  9458 frei nachfolgen jung Frau 42
    43 + 1 9458 frei jung Frau 1
    44 + 6 9458 frei jung 6
    50 + 11 9458 frei Frau 11
    61 + 18 9458 frei verlassen 18
    79 + 24 9458 frei ganz 24
    103 + 675 9458 frei 675

Granularität

  • die Granularität gibt an, wieviele der nach Signifikanz sortierten Kookkurrenzpartner als möglicher Kandidat eines Kookkurrenzpartners n. Stufe in Frage kommen (das Maß ist hierbei eine Kombination von LLR und MI (mutual information)
    • fein betrachtet die meisten (alle, die unter einem internen Schwellwert liegen)
      • [zielt auf Wortverbindungen]
    • mittel betrachtet weniger (alle, die unter dem Schwellwert - p % liegen)
    • grob betrachtet nochmals weniger (nochmals - p %)
    • sehr grob betrachtet am wenigsten (nochmals - p %)
      • [zielt auf Schlagwörter]

    Wortform nach LLR-/MI-Rang log-likelihood-ratio als Partner n. Stufe berücksichtigt bei
    Granularität =
    wRang(1, [z001-z999]) z001' sehr grob grob mittel fein
    wRang(2, [z001-z999]) z002'
    wRang(3, [z001-z999]) z003'
    ignoriert
    ignoriert
    ignoriert
    ignoriert
    wRang(999, [z001-z999]) z999'

Zuordnung der Belege

  • Belege (Treffer) können entweder eindeutig oder mehrfach zugeordnet werden
    • [im Bsp. ist Zeile 2 beschrieben durch die Wörter “frei”, “jung” und “Frau”, Zeile 1 zusätzlich durch das Wort “nachfolgen”; ein Beleg, der nur “nachfolgen” nicht enthält, kann nur Zeile 2, ein Beleg, der alle vier Wörter enthält, kann im Prinzip beiden zugeordnet werden; bei eindeutig werden Belege der genauesten Beschreibung zugeordnet, also nur Zeile 1, bei mehrfach werden die Belege jeder, auch der allgemeineren Beschreibung zugeordnet; mehrfach ist zwar zeilenweise genauer, der Nutzer muß aber bedenken, dass genauere Beschreibungen mit erfasst sind, eindeutig ist spezifischer, der Nutzer muß ggf. selber summieren]

    eindeutig KWICs mehrfach
    satz1 (frei, jung, Frau, nachfolgen)
    satz2 (frei, jung, Frau, nachfolgen)
    satz3 (frei, jung, Frau, nachfolgen)
    satz1 (frei, jung, Frau, nachfolgen)
    satz2 (frei, jung, Frau, nachfolgen)
    satz3 (frei, jung, Frau, nachfolgen)
    satz4 (frei, jung, Frau)
    satz5 (frei, jung, Frau)
    satz1 (frei, jung, Frau, nachfolgen)
    satz2 (frei, jung, Frau, nachfolgen)
    satz3 (frei, jung, Frau, nachfolgen)
    satz4 (frei, jung, Frau)
    satz5 (frei, jung, Frau)
    satz1 (frei, jung, Frau, nachfolgen)
    satz2 (frei, jung, Frau, nachfolgen)
    satz3 (frei, jung, Frau, nachfolgen)
    satz4 (frei, jung, Frau)
    satz5 (frei, jung, Frau)

Autofocus

  • ohne Autofocus wird der gesamte eingestellte Kontext betrachtet, mit Autofocus werden alle möglichen Kontexte innerhalb des vorgegebenen Kontextes ausgewertet und es wird derjenige ausgewählt, der den höchsten Signifikanzwert aufweist
    Grenze des Subkontextes
    links \ rechts
    r y 0 l
    l LLR[l,r] LLR[l,y] LLR[l,0] LLR[l,l]
    x LLR[x,r] LLR[x,y] LLR[x,0]
    0 LLR[0,r] LLR[0,y] LLR[0,0]
    r LLR[r,r]

    Ist der maximale LLR-Wert in dieser Dreiecksmatrix etwa in dem Feld (x,y), wird dieser LLR-Wert und der Fokus [x,y] angegeben.
    • [Autofocus kann Wortverbindungen aufdecken, die bei festem Kontext außer acht gelassen werden, Bsp. 10.000 Treffer, Kontext 5/5, der betrachtete Ausschnitt umfasst 100.000 Wörter, taucht ein Wort nun z.B. 500mal auf, kann dies evtl. nicht signifikant sein, steht dieses Wort aber stets eine Position links vom Trefferobjekt - etwa ADJ N -, reicht Kontext 1/0, d.h. 10.000 Wörter und dann sind 500 Vorkommen eines Wortes sicher eher signifikant, Autofocus wählt diesen Kontext automatisch]

    zeilenweise Darstellung:

    Bezugswort: Stücken

    BelegNr.
    (ab Nr. + Anzahl)
     Fokus   LLR  Partner Häufigkeit
    1 + 42 [-1,-1]  9458 frei nachfolgen jung Frau 42
    43 + 1 [-1,-1] 9458 frei jung Frau 1
    44 + 6 [-1,-1] 9458 frei jung 6
    50 + 11 [-1,-1] 9458 frei Frau 11
    61 + 18 [-1,-1] 9458 frei verlassen 18
    79 + 24 [-1,-1] 9458 frei ganz 24
    103 + 675 [-1,-1] 9458 frei 675

Anmerkung

Für jede erkannte Folge von auffälligen Partnerwörtern w1 w2 … wn gilt natürlich, dass auch jede Anfangsteilfolge w1 w2 … wx, x < n, eine auffällige Folge von Partnerwörtern ist. Bei der mehrfachen Zuordnung von Belegen werden auch alle Teilfolgen dargestellt, bei der eindeutigen Zuordnung der Belege werden nur die Teilfolgen dargestellt, für die die Menge von Belegen nicht-leer ist.

Syntagmatische Muster

  • für die Angabe des syntagmatischen Musters werden keine (!) tiefergehenden statistischen Auswertungen vorgenommen, es werden lediglich die Häufigkeiten innerhalb der Treffermenge ausgewertet
  • das syntagmatische Muster beschreibt
    • relative Reihenfolge der Clusterelemente (Bezugswort und Kookkurrenzpartner) - jeweils in einer bestimmten Ausprägung (nicht-lemmatisierte Wortformen)
    • unbestimmte Füllung der Lücken bzw. bestimmte Füllung der Lücken mit Grad der Bestimmtheit

schematisches Beispiel: xxx% wort1 wort2 wort3 wort4 wort5

  • die Clusterelemente sind blau angegeben
  • die vorangestellte Prozentzahl gibt an, wie ausgeprägt die angegebene relative Reihenfolge dieser Elemente ist
    • die Farbe, in der die Prozentzahl dargestellt wird, wird in 5 Stufen abgeschwächt
      (schwarz = 100%,
      sehr dunkles grau = 80 - 99%,
      dunkles grau = 60 - 79%,
      grau = 40 - 69%,
      helles grau = 0 - 39%)
  • die restlichen Angaben beschreiben, ob es Lücken zwischen den Clusterelementen gibt, und wenn ja, wie diese gefüllt sind
    wort1 eine einzige Wf füllt Lücke
    wort0 wort1 Folge von Wf füllt Lücke
    wortx | worty    verschiedene Wf füllen Lücke
    [ wortx ] Lücke ist nicht immer vorhanden
    . . . kein Füller tritt auffällig oft auf
  • es wird bei den Häufigkeitsangaben nicht berücksichtigt, wie oft eine Wortform überhaupt in den Korpora vorkommt, seltene Wortformen werden dadurch benachteiligt, häufige haben dadurch einen leichten Vorteil (z.B. Funktionswörter)
  • analog zur vorangestellten Prozentangabe drücken die Graustufen bei den Wortformen aus, wie oft diese die Lücken füllen
    • wort1
    • wort3
    • wort5
    • die eckigen Klammern für die “Optionalität” übernehmen das schwächste Grau des darin enthaltenen Ausdrucks
  • Grammatik für das Pattern
    pattern = ( clusterElem | filler )+
    filler = complexFiller
    complexFiller    = complexFiller complexFiller
    | complexFiller '|' complexFiller
    | '[' complexFiller ']'
    | simpleFiller
    simpleFiller = '. . .'
    | <wortform>
    clusterElem = <wortform>

Valid HTML 4.01!


Zurück zur Projektseite


Kontakt:
korpuslinguistik@ids-mannheim.de