Direktion und zentrale Forschung

COSMAS-I-Rückblick
Corpus Search, Management and Analysis System

Cyril Belica: Das korpuslinguistische Gesamtkonzept der COSMAS-Plattform

  1. Prämissen, Prinzipien und Ansätze

  2. COSMAS-I-Veröffentlichungen, -Berichte, -Vorträge

Wissenschaftsmethodische Prämissen, Prinzipien und Ansätze empirischer Verankerung von korpusbasierten linguistischen Untersuchungen

  • Prinzip der minimale Annahme (1991)

    • minimum assumption -- J.Sinclair
    • hypothesenarme Korpusbefragung
    • A-Posteriori linguistische Interpretation
    • methodische und technische Folgen
      • Sprachunabhängigkeit
      • Verwaltung von Annotationen diskontinuierlicher Textbereiche
      • gleichzeitige Verwaltung von beliebig vielen, auch konkurrierenden Annotationsschichten
      • mehrdeutige, parametrisierbare Tokenisierung (1993)
      • korpusgerechte, normungebundene Lemmatisierung (1994)
  • Prinzip von sehr großen Korpora

    • more data is better data -- R. Mercer / K. Church
    • als unabdingbare empirische Grundlage für die Beobachtung des Sprachgebrauchs
    • 28 Millionen Textwörter im Jahr 1991
    • über 2 Milliarden Textwörter im Jahr 2005
    • technische Folgen
      • mehrere, adaptive Indizierungsmethoden (1997)
      • inkrementelle Indizierung (1993)
      • hardware- und softwareseitige Parallelisierung (1998)
      • Ergebnis-Cache (1999)
      • Optimierung der Proximitätslogik (1997)
  • Prinzip der urheberrechtlichen Unbedenklichkeit

    • empirisches Textmaterial restlos urheberrechtlich abgesichert

  • Prinzip der virtuellen Korpora (1991)

    • Repräsentativität
      • in der Phase der Korpusakquisition wird keine Repräsentativität angestrebt, sondern
        • Stratifikation
        • Quantität
        • urheberrechtliche Unbedenklichkeit
        • extratextuelle Dokumentation
      • benutzerdefinierte Repräsentativität wird in der Phase der Korpusnutzung erreicht
      • durch dynamische benutzerseitige Komposition von virtuellen Korpora
    • Komposition von virtuellen Korpora anhand
      • textexterner Kriterien (1992)
      • textinterner Kriterien (1992)
      • distributioneller Eigenschaften
    • Monitorkorpora (1993)
    • technische Folgen
      • vordefinierte Korpora (1991)
      • benutzerdefinierbare Korpora (1992)
        • speichern (1992)
        • laden (1992)
        • benennen (1992)
  • Stichprobenprinzip (1992)

    • Reproduzierbarkeit der Befunde
    • Extrapolierbarkeit der Befunde
    • technische Folgen
      • Zufallsauswahl von Korpustexten (1992)
      • Zufallsauswahl der Treffer (1993)
  • Analyseparadigma statt Konsultationsparadigma (1994)

    • Ermittlung von rekurrenten Konstituenten des Sprachgebrauchs aus empirischen Sprachdaten
    • lexikalische, syntaktische und semantische Analyse nicht voneinander getrennt
    • Untersuchung von probabilistischen, präferenzrelationalen Strukturen
    • Einsatz von mathematisch-statistischen, musterorientierten, induktiven und datengesteuerten Verfahren
      • Kookkurrenzanalyse und -clustering (1995)
      • Neologismenerkennung (1996)
      • kontrastive Untersuchungen (1996) ("omnis determinatio est negatio")
        • methodische und technische Folgen
          • mehrere virtuelle Korpora gleichzeitig aktiviert
      • multidimensionale Analyse (1998)
      • Autofokussierung des Analysekontexts (1999)
      • Ermittlung von syntagmatischen Mustern (2000)
      • Analyse von Kookkurrenzprofilen (2001)
      • Freigabe der Web-Version der ccdb-Kookkurrenzdatenbank (2001)
      • Analyse von Verwendungsaspekten (2003)
      • Modellierung sematischer Nähe (2004)
      • hierarchisches und topologisches Clustering von Kookkurrenzprofilen (2005)
      • Kontrastierung von nahen Synonymen (2006)
  • Abstraktes Textmodell (1993)

    • technische Folgen
      • SGML-Basiertheit (1993)
      • Unabhängigkeit der Indizierung vom externen Textmodell (DTD)
      • Umgang mit diskontinuierlichen Textbereichen
      • Annotationen sind vom Text abgetrennt, werden auf den Text projiziert
      • Verarbeitung morphosyntaktischer Annotationen (1997)
      • textmodellsensitive Präsentation der Annotationen (s. Multimedia-Tauglichkeit)
  • Prinzip der Multilingualität (1995)

    • Sprachunabhängigkeit
    • austauschbare sprachspezifische Module
  • konsequent an den o.g. wissenschaftsmethodischen Prinzipien ausgerichtete informatische Umsetzung

    • Modularität
      • COSMAS-Kern (1992)
      • sprachunabhängige Module (1992)
      • sprachspezifische Module (1992)
      • Bibliothek von API-Diensten für andere Anwendungsprogramme (1994)
      • Stapelverarbeitung (1996)
    • Client-Server-Konzept
      • Netzwerktauglichkeit (1993)
      • Web-Konnektivität (1996)
    • zeilenorientierte Suchabfragesprache (1991)
      • logische Operatoren
      • treffereinschließende und trefferausschließende Abstandsoperatoren
      • Maximal- und Intervallabstand
      • Klein-/Großschreibung
      • Lemmatisierung
      • Annotationen
      • frühere Suchanfragen
      • frühere Suchergebnisse
      • KWIC-Filterung
      • Wortformen- und Lemmalisten
      • Expansion der Suchobjekte
    • grafische drag&drop-Suchabfragesprache (1994)
      • syntaxsensitive synoptische Schachtelung von Teilsuchanfragen
      • Suchanfragenpalette
      • Suchanfragenmakros
    • variable Proximitätsmetrik (1991)
      • implizit
        • Wortsegment-, Wort-, Satz-, Absatz- und Textmetrik
      • explizit
        • SGML-Annotationen
        • Modell der Zeit und Zeitmetrik für Audio-Annotationen
    • stufenweise Ergebnispräsentation: Textübersicht, Konkordanz (KWIC), Beleg (1991)
    • Verschiedenes
      • Einheitliche Header- und Textsuche (1994)
      • Ergebnisstapel (1992)
      • Import von Wortlisten und Suchanfragen (1993)
      • verschiedene Exportmöglichkeiten (1992)
      • grafische Darstellung chronologischer Informationen (2000)
      • Anzeige der Quellenangaben mit Seitennummern (1992)
    • Multimedia-Tauglichkeit
      • Schnittstelle zum externen SGML/XML-Viewer
      • Schnittstelle zum Multimedia-Player
    • Datenorganisation
      • beliebig viele getrennte Korpusarchive (1994)
    • Verwaltung
      • Benutzerregistrierung (2002)
      • Benutzerverwaltung (1996)
      • Korpusverwaltung (1992)
      • Verwaltung der Zugriffsrechte (1993)

zum Seitenanfang


COSMAS-I-Veröffentlichungen, -Berichte, -Vorträge, -Workshops, -Präsentationen und sonstige Aktivitäten

Belica, Cyril/Neumann, Robert/al-Wadi, Doris: Computerlinguistik mit COSMAS. Der Computer als aktuelles Werkzeug des Korpuslinguisten: Methoden - Tools - Korpora. Symposion. 15.-17.9.1992. Mannheim.

Belica, Cyril (1992). Korpusaktivitäten des Instituts für deutsche Sprache. Workshop "Repräsentatives Korpus der deutschen Gegenwartssprache". Universität Bonn.

Belica, Cyril (1992). Automatisches Lemmatisierungsverfahren und Kompositazerlegung. Bericht. IDS Mannheim.

Belica, Cyril (1993). Text Encoding Initiative: A Feasibility Study. Forschungsbericht des NERC-Projekts. Luxemburg.

Belica, Cyril/al-Wadi, Doris (1993): COSMAS-System-Präsentation. 29. Jahrestagung des Instituts für Deutsche Sprache. Mannheim.

Belica, Cyril (1993). Das Lemmatisierungsverfahren "Flexionsanalyse und Kompositazerlegung". Kolloquium. IDS Mannheim.

Jüttner, Irmtraud/al-Wadi, Doris (1993): Corpus Storage, Maintenance, and Access System (COSMAS) für große Textsammlungen: Ein Entwurf und seine Realisierung. 24. Jahrestagung der Gesellschaft für Angewandte Linguistik (GAL). Leipzig .

Aarts, Jan/Belica, Cyril/ Cloeren, Jan/Gross, Maurice/ Moulin, Andre/Neumann, Robert/Sinclair, John/van Sterkenburg, P.G.J. (1993): MECOLB Project Proposal. MLAP Call 1993: Exploratory Actions for the Language Industry. Feasibility and Validation Study. Luxembourg.

Jüttner, Irmtraud (1993-2001) / al-Wadi, Doris (1993-1996): Zahlreiche Präsentationen von COSMAS vor Gästen aus wissenschaftlichen und politischen Kreisen sowie vor Schüler- und Studentengruppen.

Jüttner, Irmtraud (1993-2001) / al-Wadi, Doris (1993-1996): Betreuung und Anleitung von zahlreichen Wissenschaftlern aus dem In- und Ausland bei der Anwendung von COSMAS.

Jüttner, Irmtraud (1993-2001) / al-Wadi, Doris (1993-1996):  Durchführung zahlreicher Auftragsrecherchen mit COSMAS für Wissenschaftler aus dem In- und Ausland (bis zum WWW-Zugang 1996).

al-Wadi, Doris (1993-2002): Erarbeitung und kontinuierliche Pflege der Informationsmaterialien zu COSMAS I.

al-Wadi, Doris (1994): COSMAS - Ein Computersystem für den Zugriff auf Textkorpora, Version R.1.3-1, Benutzerhandbuch. IDS Mannheim.

Belica, Cyril (1994). A German Lemmatizer. Final Report MLAP93-21/WP2. Luxemburg.

Belica, Cyril (1994). Automatische Ermittlung von Neologismen-Kandidaten im Wendekorpus. Kolloquium "Neologie". IDS Mannheim.

al-Wadi, Doris (1994): Praktische Einführung in COSMAS. Fallstudien zu sprachlichen Fragestellungen. COSMAS-Workshop im Rahmen des EU-Projektes MECOLB (Multilingual Environment for Corpus-Based Lexicon Building). IDS Mannheim.

Belica, Cyril (1994). Moderne Methoden der Korpuslinguistik. Statistische Kollokationsanalyse und -clustering. Workshop "Sprachstrukturen". Uttenreuth.

Belica, Cyril/al-Wadi, Doris (1994). COSMAS - Ein Computersystem für den Zugriff auf große Textkorpora. Vorführung im Rahmen der Kulturbörse zum Deutschen Germanistentag. Aachen.

Belica, Cyril (1995). Statistische Analyse von Sprachstrukturen in Korpora. Tagung des Arbeitskreises "Korpora" der GLDV. Stuttgart.

Belica, Cyril (1995). Statistische Kollokationsanalyse und -clustering. Korpuslinguistische Analysemethode. http://corpora.ids-mannheim.de/.

Belica, Cyril (1995). Statistische Kollokationsanalyse. Kolloquium "Entwicklungen in der Korpuslinguistik: Ein Neuer Korpusbegriff und seine Methoden." Mannheim.

Belica, Cyril (1995). Analyseparadigma der Korpuslinguistik: Statistische Kollokationsanalyse. Kurs an der Herbstschule der GLDV mit dem Thema: Moderne Methoden der Corpusanalyse. Institut für Kommunikationsforschung und Phonetik der Universität Bonn.

al-Wadi, Doris (1995): Statistischer Zugriff auf Korpora: Ein Arbeitsumfeld. Im Rahmen der GLDV-Herbstschule '95 mit dem Thema: Moderne Methoden der Corpusanalyse. Institut für Kommunikationsforschung und Phonetik der Universität Bonn.

Belica, Cyril (1995). Corpus Access Tools. Tagung der MECOLB Academic Development Group. IDS Mannheim.

Belica, Cyril (1995). Cross-Features of COSMAS-II. MECOLB End Review. IDS Mannheim.

Belica, Cyril (1996): Statistische Analyse von Zeitstrukturen in Korpora. In: LDV-INFO 8. Mannheim. S. 86-95.

Belica, Cyril (1996): Analysis of Temporal Changes in Corpora. In: International Journal of Corpus Linguistics Vol. 1(1). Amsterdam/Philadelphia. S. 61-73.

Belica, Cyril (1997): Korpuslinguistik als Arbeitsfeld der LDV: Korpora und ihre Methoden. In: Unterlagen zur Evaluation der Zentralen Arbeitsstelle Linguistische Datenverarbeitung des IDS im März 1997. IDS Mannheim.

Belica, Cyril/Cloeren, Jan (1997): Pilotstudie "Korpusbasierte Validierung von Wörterbüchern". IDS Mannheim.

Belica, Cyril (1997): Statistische Analyse von Zeitstrukturen in Korpora. In: Teubert, Wolfgang, Hg. Neologie und Korpus. Tübingen: Narr. 31-42.

Belica, Cyril (1998): Workshop "COSMAS I im World Wide Web". Rahmenprogramm der 33. Jahrestagung des IDS, 10. März 1998. Mannheim.

Belica, Cyril (1998): Workshop "Morphosyntaktische Annotationen in COSMAS I". Rahmenprogramm der 33. Jahrestagung des IDS, 11. März 1998. Mannheim.

Belica, Cyril/Cloeren, Jan (1998): Studie "Korpusbasierte Validierung von Wörterbüchern". IDS Mannheim.

Belica, Cyril/al-Wadi, Doris (1999): COSMAS im Internet. System-Präsentation. 35. Jahrestagung des Instituts für Deutsche Sprache. Mannheim.

Belica, Cyril/Lawson, Ann (1999): Improving Dictionary Coverage: Conclusions drawn from a corpus-based validation study. Vortrag, International Conference PALC'99. University of Lodz, 15-18 April 1999.

Belica, Cyril (2000): Korpustechnologie am IDS. Vortrag am 4. April 2000. IDS Mannheim.

Belica, Cyril (2000): COSMAS-Plattform. Workshop am 12. April 2000. IDS Mannheim.

Jüttner, Irmtraud (2000): COSMAS-Korpora: Akquisition von digitalisierten Texten und Problematik des Urheberrechts. Kolloquium. IDS Mannheim.

al-Wadi, Doris (2000): COSMAS-Korpora: zu ihrer Aufbereitung und Dokumentation. Kolloquium. IDS Mannheim.

Belica, Cyril (2000): Kookkurrenzanalyse. Vortrag am 29. Juni 2000. IDS Mannheim.

Belica, Cyril (2001): Kookkurrenzdatenbank CCDB - Eine korpuslinguistische Denk- und Experimentierplattform für die Erforschung und theoretische Begründung von systemisch-strukturellen Eigenschaften von Kohäsionsrelationen zwischen den Konstituenten des Sprachgebrauchs. http://corpora.ids-mannheim.de/ccdb/.

Anmerkung: Eine gelungene Nachzeichnung von prägenden Konturen des korpuslinguistischen Gesamtkonzepts der COSMAS-Plattform der Neunzigerjahre bietet - als Einführung zu ihrer Arbeit über linguistische Klassifikation usueller Wortverbindungen - außerdem

Steyer, Kathrin (2004): Kookkurrenz. Korpusmethodik, linguistisches Modell, lexikografische Perspektiven. In: Steyer, Kathrin (Hrsg.): Wortverbindungen - mehr oder weniger fest. Berlin/New York. (= Jahrbücher des Instituts für Deutsche Sprache, 2003), S. 87-116.

zum Seitenanfang


Kontakt:
Cyril Belica <belica@ids-...>