IDS-Logo
Startseite : : Organisationsstruktur : : Direktion : : Korpuslinguistik Korpuslinguistik : : Projekte : : Korpusausbau : : IDS-Textmodell
IDS-TextmodellIDS-TextmodellIDS-TextmodellIDS-TextmodellIDS-TextmodellIDS-Textmodell
Direktion und zentrale Forschung

Kontakt:
    <korpuslinguistik@ids-...>
 
Leitung:
    Dr. Marc Kupietz <kupietz@ids-...>
 
Wissenschaftliche Mitarbeiter:
    Cyril Belica <belica@ids-...>
    Dr. Harald Lüngen <luengen@ids-...>
    Rainer Perkuhn <perkuhn@ids-...>
 
Kooperationen:
    siehe hier
 
Ehemalige am Korpusaufbau beteiligte Mitarbeiter des IDS:
    siehe hier
 
Wissenschaftliche Hilfskräfte:

  • Xiaoxi Pang

 
Studentische Hilfskräfte:

  • Anna Schächtele
  • Katharina Sowa
  • Jani Takhsha

 

 

Korpora der geschriebenen Sprache

Das IDS-Textmodell

Für die effiziente automatische Auswertung großer elektronischer Textsammlungen ist es unerlässlich, dass die Texte in einem einheitlichen Datenstrukturformat kodiert sind. Für die Korpora geschriebener Sprache am IDS wird dieses Format durch das so genannte IDS-Textmodell definiert, das auf dem internationalen Kodierungsstandard XCES basiert und darüberhinaus einige Ergänzungen und Änderungen enthält, die wiederum großteils an den Standard TEI P5 angelehnt und teilweise durch die spezifische Korpusstruktur der IDS-Korpora motiviert sind.

Charakteristisch für das IDS-Textmodell ist die angestrebte originalgetreue Abbildung der textuellen Inhalte und Strukturen der Quelltexte und die Dokumentation sämtlicher bisher in den Korpora vorkommender Textarten in einheitlichen Strukturen.

Zentrale Komponenten des IDS-Textmodells sind Korpusstruktur, Korpustext-Bibliografie und Primärtextbehandlung.

Korpusstruktur

Um virtuelle Korpuskompositionen, sinnvolle Quellenlisten bei der Ergebnispräsentation u.a.m. zu ermöglichen, werden die Quelltexte nach festgelegten Kriterien gegliedert und in eine hierarchische Struktur eingebunden, die folgende drei Ebenen umfasst:

»»»

Korpusebene (Korpusidentifikator, z.B. LES)

 

»»»

Dokumentebene (Dokumentidentifikator, z.B. LES/ESS)

 

 

»»»

Textebene (Textidentifikator, z.B. LES/ESS.20022)

 

Das IDS-Textmodell definiert Text als eine relativ selbstständige, inhaltlich kohärente Folge natürlichsprachlicher Äußerungen, die natürlichen Kommunikationssituationen entstammen. Sie bildet den Korpustext, die »kleinste« Einheit eines Korpus.

Jedes Korpus besteht aus einem oder mehreren Dokumenten; jedes Dokument setzt sich wiederum aus einem oder mehreren Korpustexten zusammen. In einem Dokument können mehrere Texte nach bestimmten Gesichtspunkten zusammengefasst sein, z.B. nach Quellen, chronologischer Abfolge, Themenbereichen und/oder Textarten. Ein Text beinhaltet je nach Korpusstruktur z.B. einen oder mehrere Zeitungsartikel oder eine als Ganzes aufgenommene Zeitung/Zeitschrift, einen Auszug aus einem selbstständigen Werk oder ein selbstständiges Werk als Ganzes.

Beispiel:

Das Korpus

Siegfried Lenz: Werkausgabe in Einzelbänden [20 Bde.]. – Hamburg: Hoffmann und Campe Verlag, 1996-1999

Anz. Texte

Dokument

Beschreibung

Bd.

1

LES/HIL.00000

Es waren Habichte in der Luft. Roman

1

...

...

...

...

1

LES/ALE.00000

Die Auflehnung. Roman

12

77

LES/ERZ.13001 [-16022]

[Erzählungen]

13-16

3

LES/SCH.17001 [-17003]

[Schauspiele]

17

4

LES/HOR.18001 [-18004]

[Hörspiele]

18

98

LES/ESS.19001 [-20032]

[Essays]

19+20

 

Korpustext-Bibliografie

Die IDS-Korpustexte sind von jeher mit Quellennachweisen versehen, die bei der Anzeige gefundener Belege mit angezeigt werden. Allerdings waren sie in den früheren Korpora unstrukturiert. So wurde in den Neunzigerjahren ein Korpustext-Bibliografiemodell als eine zentrale Komponente des IDS-Textmodells entwickelt, das korpusübergreifende automatische Zugriffe auf die nunmehr einheitlich strukturierten umfangreichen Quellendaten mit folgenden Zielen erlaubt:

  • automatische virtuelle Korpuskomposition nach Autoren, Textarten, Entstehungszeiten, Sachgebieten usw.; vorkommende Textarten sind z.B.:

Abhandlung

Aphorismus

Aufsatz

Autobiografie

Bericht

Biografie

Brief

Denkschrift

Erlass

Erzählung

Essay

Flugblatt

Fußnote

Forschungsbericht

Gebet

Gebrauchsanweisung

Gedicht

Handzettel

Hörspiel

Interview

Klappentext

Leitartikel

Märchen

Nachruf

Nachwort

Parteiprogramm

Petition

Presseerklärung

Produktbeschreibung

Protokoll

Rede

Rezension

Roman

Schauspiel

Tagebuch

Vorspann

Werbung

 

 

 

  • automatische nutzerorientierte Generierung von auswählbaren Arten von Quellennachweisen (ausführlich normgerecht, verkürzt oder übergeordnet)
  • Informationsgewinnung statistischer Natur unter vielfältigen Aspekten, z.B. chronologische Sortierung der Rechercheergebnisse, ermöglicht durch die Bereitstellung des Entstehungsdatums

Primärtextbehandlung

Der Primärtext des IDS-Textmodells setzt sich aus den so originalgetreu wie möglich abgebildeten Originaltext- und minimalen notwendigen Zusatzinformationen zusammen.

Originaltextinformationen

=

 

Grundtext + Vorspann + Überschrift(en) + Grußformel(n) + Bildtext(e) + Zusatz-(Rand-)Text(e) + Übersicht(en) + Tabelle(n) + Fußnote(n) + Originalseiteneinteilung + ...

Zusatzinformationen

=

 

Satzende(n) + Absatzgrenze(n)

 

Das Markieren dieser Erscheinungen und ggf. weiterer (z.B. Verfasser, Interviewpartner, typografische Hervorhebungen) erlaubt die Inbezugsetzung von Textinhalten zu Textstrukturen, Recherchen mit Satzabständen, die Bestimmung der Belegstellenkontexte, die Bereitstellung konkreter Originalseitenangaben in den Quellennachweisen u.a.m.

zum Überblick