Digitale Sprachwissenschaft

COSMAS-I-Rückblick
Corpus Search, Management and Analysis System

Chronologische Sortierung von Rechercheergebnissen in COSMAS I

Doris al-Wadi, Cyril Belica; 15.2.2000
Letzte Änderung: 21.3.2000

Mitteilung

Seit dem 3. Februar 2000 kann der COSMAS-I-Nutzer Treffer chronologisch sortieren lassen.

Die zugrunde liegende Zeitangabe betrifft die Entstehung bzw., wenn diese nicht bekannt ist, die Erstveröffentlichung der Quelle eines Korpustextes. In der WWW-Version von COSMAS I können chronologisch sortierte Treffer jahresweise, jahrzehntweise, in zwei benutzerdefinierten Zeitperioden oder en bloc angezeigt werden. In der alphanumerischen Vollversion ist nur die jahresweise Gruppierung verfügbar.

Erläuterungen zur chronologischen Sortierung in COSMAS I

Kein Rechercheprogramm kann aus den Korpora mehr Informationen gewinnen, als in ihnen vorhanden sind. Das gilt für das eigentliche Sprachmaterial genauso wie z.B. für morphosyntaktische oder bibliographische Annotationen. Auch die chronologische Sortierung in COSMAS I beruht gänzlich auf den Erweiterungen der bibliographischen Dokumentation unserer Korpora, die seit mehreren Jahren - für den COSMAS-Nutzer nahezu unsichtbar - kontinuierlich fortgeführt und Schritt für Schritt zur Anwendung freigegeben werden. Sie wurde durch die Freigabe einer weiteren bibliographischen Information - der "Entstehungszeit" - ermöglicht. Die dazu erforderlichen Erweiterungen des COSMAS-I-Programms waren minimal.

De facto nutzt COSMAS I nur einen kleinen Teil des Potentials, das sich hinter dieser bibliographischen Information verbirgt, z.B. ignoriert es Zeitspannen (siehe unten) und greift bei der Sortierung nur auf die erste vorhandene Datierung zu. Ebenso nicht implementiert in COSMAS I bleibt die auf der Entstehungszeit basierende virtuelle Korpuskomposition oder Unterstützung für kontrastive diachronische Untersuchungen.

Erläuterungen zur bibliographischen Angabe "Entstehungszeit"

Wie oben erwähnt, betrifft die zugrunde liegende Zeitangabe die Entstehung bzw., wenn diese nicht bekannt ist, die Erstveröffentlichung der Quelle eines Korpustextes. In der Regel handelt es sich um die erste Jahreszahl oder das erste Datum, das sich nachweisen lässt. Allerdings waren in einigen Fällen Vermutungen und Schätzungen nicht zu vermeiden, was sich aber in dem für die automatische Weiterverarbeitung vorgesehenen Datenfeld nicht niederschlägt. Diesbezügliche Kommentare, weiterführende Informationen etc. sind gegebenenfalls in anderen Datenfeldern innerhalb der bibliographischen Datensätze zu den einzelnen Korpustexten untergebracht und sollen künftig auch abgerufen werden können.

Das Datenfeld mit der Zeitangabe ist so strukturiert, dass Programme zuerst auf die Jahreszahl zugreifen können, dann, soweit vorhanden, auf den Monat und den Tag, z.B. BOT+ent:1989.12.09 im Wendekorpus (ein politischer Aufruf vom 9. Dezember 1989 in Leipzig), wo die exakte Zeitangabe eine außerordentlich große Rolle spielt. Mitunter ist eine Zeitspanne angegeben, z.B. bei der autobiographischen Schrift "Tag- und Jahreshefte" von Goethe, die über einen längeren Zeitraum entstanden ist (BOT+ent:1817-1825), oder im Mannheimer Korpus 2 bei einigen Texten ohne ursprüngliche Zeitangabe, wo die Entstehungszeit geschätzt ist anhand des zeitlichen Hauptvorkommens der mit Datum oder Jahreszahl versehenen Texte des mk2 (BOT+ent:1960-1974). Das COSMAS-I-Programm greift bei der Sortierung nur auf die erste Jahreszahl zu.

Fast alle Korpora der geschriebenen Sprache (derzeit insgesamt 68), auch die morphosyntaktisch annotierten und die phasenklassifizierten, enthalten genaue Zeitangaben zu jedem einzelnen Korpustext, soweit das möglich ist. Lediglich in den vier folgenden Korpora steht noch eine tiefgründige Bearbeitung aus; hier gibt es z. Z. nur eine grobe Zeitangabe:

  • LIMAS-Korpus (lim): 1970/71 (die Texte stammen entweder aus dem Jahr 1970 oder 1971, sie sind nach statistischen Kriterien aus der Deutschen Nationalbibliographie, erschienen 1971 und 1972, ausgewählt und gewichtet worden)
  • Fachsprachenkorpus 2: Gentechnologie (dkg): bei den meisten Texten ist vorerst nur die Jahreszahl aus der ursprünglichen Bibliographiedatei angegeben
  • Korpus Marx-Engels-Werke (mew): die Zeitangabe entspricht den jeweiligen Bandtiteln
  • Korpus Marx-Engels-Gesamtausgabe (meg): die Zeitangabe entspricht den jeweiligen Bandtiteln

Das Textmaterial der Frankfurter Allgemeinen 1993 + 1995 (faz) erhielt das IDS in unstrukturierter Form und durfte aus urheberrechtlichen Gründen auch nicht aufgearbeitet werden, so dass hier nur die Jahreszahlen zur Verfügung stehen.

Hintergründe

Die Möglichkeit der chronologischen Sortierung ist ein erstes anwendbares Ergebnis der z.T. aufwendigen Erarbeitungen von einheitlich strukturierten Quellenbibliographien zu allen einzelnen Korpustexten. Die in den älteren Korpora vergleichsweise knapp gehaltenen bisherigen bibliographischen Angaben weisen eine derart unterschiedliche Struktur auf, dass sie so gut wie keine korpusübergreifende automatische Weiterverarbeitung zulassen. Im Hinblick auf vielfältige Nutzerinteressen aber sind z.B.

  • automatische nutzerorientierte Generierungen von Quellennachweisen,
  • Informationsgewinnung statistischer Natur,
  • automatische virtuelle Korpuskompositionen u.a. nach den sog. Entstehungszeiten der Texte, nach Textarten usw.

und anderes mehr mit Hilfe einheitlich strukturierter Quellenbibliographien erstrebenswert. Um diese Ziele zu erreichen, wurden die bisherigen bibliographischen Beschreibungen der vorhandenen Korpustexte tiefgründig analysiert und nach einer Phase des Experimentierens und Wissensaustausches verbindliche Datensatzschemata für die Korpora der geschriebenen Sprache entwickelt. Die Quellenbibliographien der in den letzten Jahren neu hinzugekommenen Korpora sind an diese Konzeption angepasst worden. Die Quellenbibliographien der umfangreichen Zeitungskorpora jüngeren Datums sind anhand der von den jeweiligen Verlagen gelieferten Daten vollautomatisch angepasst worden - ihre Qualität hängt von der Qualität der Verlagsdaten ab. Die älteren Korpora harren noch der vollständigen Aktualisierung, denn die akribischen Umsetzungs-, Kontroll- und Ergänzungsarbeiten, häufig durch Autopsie der Quellen, sind sehr mühselig und zeitaufwendig, was viele kleinere Texte betrifft.

Die Arbeiten an den Quellenbibliographien sind inzwischen so weit gediehen, dass jetzt zumindest das Datenfeld mit der Zeitangabe zur Entstehung bzw., wenn sie nicht bekannt ist, zur Erstveröffentlichung eines einzelnen Korpustextes zur automatischen Weiterverarbeitung bereitsteht. Diese Zeitangabe kann mit dem Erscheinungsjahr der als Vorlage für den Korpustext benutzten Quelle identisch sein (z.B. wenn es sich um die erste Auflage handelt wie bei der Erzählung "Versuchte Nähe" von Hans Joachim Schädlich, 1977), häufig aber differieren diese beiden zeitlichen Angaben (z.B. Thomas Mann: Aus der Rede am 18. August 1924 in Stralsund, In: Mann, Thomas: Gesammelte Werke in zwölf Bänden, Bd. 11, Reden und Aufsätze. Frankfurt a.M.: S. Fischer Verlag, 1960). Das Erscheinungsjahr ist in einem gesonderten Datenfeld untergebracht, das nicht für die chronologische Sortierung verwendet wird.


Zur Erläuterung der COSMAS-I-Grafiken siehe auch Cyril Belica: Von absoluten Häufigkeiten zum Differenzenkoeffizienten

zu COSMAS I