IDS-Logo
Startseite : : Organisationsstruktur : : Direktion : : Korpuslinguistik Korpuslinguistik : : Projekte : : Korpusausbau : : Annotationen
AnnotationenAnnotationsAnnotationenAnnotationenAnnotationenAnnotationen
Direktion und zentrale Forschung

Kontakt:
    <korpuslinguistik@ids-...>
 
Leitung:
    Dr. Marc Kupietz <kupietz@ids-...>
 
Wissenschaftliche Mitarbeiter:
    Cyril Belica <belica@ids-...>
    Dr. Harald Lüngen <luengen@ids-...>
    Rainer Perkuhn <perkuhn@ids-...>
 
Kooperationen:
    siehe hier
 
Ehemalige am Korpusaufbau beteiligte Mitarbeiter des IDS:
    siehe hier
 
Studentische Hilfskräfte:

  • Anna Schächtele
  • Jani Takhsha

 

 

Morphosyntaktische Annotationen

Das Deutsche Referenzkorpus (DeReKo-2009-II) ist vollständig mit den Analysen der folgenden Tagging-Werkzeuge konkurrierend standoff-annotiert:

Die Strategie konkurrierender Annotationen von mehreren (möglichst vielen) Taggern wurde dabei gewählt, um dem interpretativen, theorieabhängigen und notwendigerweise fehlerbehafteten Charakter der automatisch generierten Sekundärdaten gerecht zu werden und in der Nutzungsphase insbesondere eine Minimierung von Typ-II-Fehlern (bzw. Recall-Maximierung) zu ermöglichen.

Kurzinfos und Trivia

  • Die drei derzeit verwendeten Tagger wurden nach einer Reihe von linguistischen, informatischen und wirtschaftlichen Kriterien aus insgesamt 25 infrage kommenden Werkzeugen ausgewählt.
  • Eine vollständige Annotation von DeReKo mit den drei Taggern benötigt ca. 12 CPU-Jahre (Opteron 3GHz).
  • Eine 3-fache manuelle Annotation würde etwa 2000 Personen-Jahre in Anspruch nehmen.
  • Die XML-Dateien, die die Standoff-Annotationen beinhalten, sind zusammen 2,5 Terabyte groß.
  • Bildet man die verschiedenenen Tagsets – soweit sinnvoll – auf ein 9-elementiges Basis-Tag-Set ab, so ergibt sich in Bezug auf die Wortart-Klassifikation eine durchschnittliche Übereinstimmung von 92% (Fleiss' κ=0,931).
  • Der Anteil bezüglich der Wortarten vollständig übereinstimmend analysierter Sätze liegt bei 31,4%.
  • Der Anteil der von mindestens zwei Taggern übereinstimmend analysierter Sätze liegt bei 52,3%.

Die linguistische Qualität der Annotationen wird derzeit weiterhin systematisch ausgewertet. Erste Ergebnisse wurden am 23.9.2009 im Rahmen des Vortrags The Morphosyntactic Annotation of DeReKO: Interpretation, Opportunities, and Pitfalls auf der Konferenz Grammatik und Korpora (Grammar & Corpora 3) veröffentlicht.

Bei Fragen zu den Recherchemöglichkeiten in den Annotationsschichten wenden Sie sich bitte an das COSMAS II-Projekt.

Frühere Annotationen

  • Bereits im Jahr 1995 standen die ersten morphosyntaktisch annotierten Korpora am IDS zur Verfügung. Die Annotationen der Korpora, die damals ca. 30 Millionen Textwörter umfassten, wurden mit dem Produkt Logos773 - Source Tagger for German der Firma Logos generiert.
  • Im Jahr 1999 wurden weitere ca. 300 Millionen Textwörter mit den Tools gercg und gertwol der Firma Lingsoft automatisch morphosyntaktisch annotiert.


zum Überblick