IDS-Logo
Startseite : : Organisationsstruktur : : Direktion : : KorpuslinguistikKorpuslinguistik : : Projekte : : Analysemethodik : : Grund- und Wortformenlisten
Grund- und WortformenlistenCorpus Based Lemma and Word Form ListsGrund- und WortformenlistenGrund- und WortformenlistenGrund- und WortformenlistenGrund- und Wortformenlisten
Direktion und zentrale Forschung

Kontakt:
    <korpuslinguistik@ids-...>
 
Leitung:
    Cyril Belica <belica@ids-...>
 
Wissenschaftliche Mitarbeiter:
    Dr. Marc Kupietz <kupietz@ids-...>
    Dr. Harald Lüngen <luengen@ids-...>
    Rainer Perkuhn <perkuhn@ids-...>
 
Studentische Hilfskräfte:
    Anna Konovalova
    Theresa Sick

DeReWo – Korpusbasierte Grund-/Wortformenlisten

In diesem Teilprojekt entwickeln wir Verfahren, mit deren Hilfe man auf der Grundlage beliebiger virtueller Korpora häufigkeitsbasierte Ranglisten von Wörtern (als Grundformen), Wortformen, Wortbestandteilen oder Wortverbindungen erstellen kann. Durch die Anwendung dieser Verfahren auf das Deutsche Referenzkorpus DeReKo generieren wir verschiedenartige Ranglisten des deutschen Sprachgebrauchs, z.B. die Lemmakandidatenliste mit 350.000 Einträgen für elexiko – das Online-Wörterbuch zur deutschen Gegenwartssprache.

Neben dem bereits seit 2007 bestehenden Angebot verschiedener korpusbasierte Wort- und Grundformenlisten erweitert der Arbeitsschwerpunkt sein Spektrum um

 

Korpusbasierte Grund- und Wortformenlisten

Aktuelle Arbeitsschwerpunkte

  • Schreibweisenzuordnung
  • paradigmatische Zuordnung
  • zeitliche/regionale/texttypologische u.ä. Differenzierung
  • Sonderfälle
  • Qualitätssicherung

Aktuell zum Download verfügbare DeReWo-Grund-/Wortformenlisten

Das Institut für Deutsche Sprache erreichen immer wieder Anfragen nach "den häufigsten deutschen Wörtern" in der Annahme, dass derartige Wünsche klar genug formuliert und daher leicht zu beantworten sind. Mit der Veröffentlichung der DeReWo-Grund-/Wortformenlisten bemühen wir uns einen Kompromiss zu finden zwischen der faszinierenden Vielfalt unserer sprachlichen Realität und dem berechtigten Wunsch nach ihrer möglichst kompakten, wenn auch teilweise vereinfachenden Beschreibung. Mithilfe allgemeiner Anmerkungen wollen wir Ihnen einen Überblick über die Problembereiche vermitteln, die bei der Erstellung und Nutzung derartiger Listen relevant sind und mit denen wir uns auseinandergesetzt haben. Die allgemeinen Anmerkungen sind in ihrer jeweiligen Fassung den Archiven beigelegt, die aktuelle Fassung können Sie auch hier direkt herunterladen. Neben den allgemeinen Anmerkungen liegt jeder DeReWo-Liste zusätzlich eine ausführliche produktspezifische Dokumentation bei. Diese orientiert sich in ihrer Struktur an den allgemeinen Anmerkungen und soll Ihnen dabei helfen, die jeweils gewählte Sprachbetrachtungsperspektive und die daraus resultierenden Vereinfachungen und Folgen für die Interpretation und Handhabung der Liste nachzuvollziehen.

Bezeichung

Typ

Anzahl Einträge

veröffentlicht am

 

DeReKo-2014-II-MainArchive-STT.100000

Wortform+Lemma+POS-Frequenzliste

100.000

31. Dezember 2014

download

derewo-v-ww-bll-320000g-2012-12-31-1.0

Grundformliste

326.946

31. Dezember 2012

download

derewo-v-ww-bll-250000g-2011-12-31-0.1

Grundformliste

250.000

31. Dezember 2011

download

derewo-v-40000g-2009-12-31-0.1

Grundformliste

40.000

31. Dezember 2009

download

derewo-v-100000t-2009-04-30-0.1

Wortformliste

100.000

12. Mai 2009

download

derewo-v-30000g-2007-12-31-0.1

Grundformliste

30.000

31. Dezember 2007

download

  • Die Nutzung der DeReWo-Listen ohne Kenntnis der dazugehörigen Dokumentation ist wissenschaftlich unseriös.
  • Die Referenzierung oder die Weitergabe der DeReWo-Listen ohne die dazugehörige Dokumentation ist nicht erlaubt.
  • Die kommerzielle Nutzung von DeReWo-Listen ist nicht erlaubt.
  • Bei Problemen beim Herunterladen der Listen gehen Sie bitte folgendermaßen vor
    • zuerst das Archiv herunterladen und lokal speichern
    • dann das Archiv entpacken (meist möglich über Doppelklick), dabei wird ein neuer Ordner angelegt
    • Anwendung starten (Textverarbeitung, Tabellenkalkulation o.Ä.)
    • in die Anwendung die Datei aus dem neuen Ordner laden, die nicht auf pdf endet (über Öffnen, Einfügen als Tabelle oder Importieren)
    • falls abgefragt als Kodierung ISO-8859-15 angeben (ggf. in der Dokumentation nachschlagen)
    • falls dies nicht zum gewünschten Ergebnis führt, bitte an u.g. Email-Adresse wenden

Korpusbasierte Zeichenhäufigkeitslisten

Für verschiedene Anlässe ist von Interesse, wie sich die Häufigkeiten der verschiedenen Zeichen (insbesondere z.B. die Buchstaben des deutschen Alphabets) im Sprachgebrauch verteilen. Auch dazu haben wir in unserer Sammlung authentischer Texte, dem Deutschen Referenzkorpus DeReKo eine Reihe von Auswertungen durchgeführt, die in dieser Dokumentation zusammengefasst sind. Aus dieser Dokumentation erschließen sich die Hintergründe und Eigenschaften der verschiedenen, in der Studie entstandenen Listen "derechar-v-uni-XXX-2018-02-28-1.0", die hier in der Übersicht als Verweise (und auf den jeweiligen Seiten auch zum Download) angeboten werden.

uniXXX=

alle markanten Zeichen

nur deutsches Alphabet

Berechnung relative Häufigkeit

Groß-/Kleinschreibung unterscheiden

Groß-/Kleinschreibung ignorieren

mit „andere Zeichen“

...uni-204-a-c...

...uni-059-a-c...

...uni-030-a-l...

ohne „andere Zeichen“

...uni-059-b-c...

...uni-030-b-l...

 

Korpusbasierte Sammlungen von typischen Wortverbindungen

Neben dem eher querschnittsartigen, umfassenden Angebot von typischen Wortverbindungen zum allgemeinen Sprachgebrauch über die Kookkurrenzdatenbank CCDB beschäftigen wir uns in diesem Arbeitsbereich mit Überlegungen dazu, wie Teilmengen von typischen Wortverbindungen zu bestimmten Sprachauschnitten oder aus bestimmten Perspektiven herausgearbeitet werden können. Eine erste Testversion ist zu der Lemmastrecke des Valenzwörterbuchs mit verschiedenen Auswahlmöglichkeiten von typischen Wortverbindungen unterschiedlicher Qualität konzipiert worden, die unter unter der Bezeichnung DeReKoll - Kollokationsschätze zum Deutschen Referenzkorpus veröffentlicht ist. Weitere Varianten sind in Vorbereitung.


Bei Fragen oder Anregungen senden Sie bitte eine Email an derewo@ids-mannheim.de.

Kooperationen

Zurück zur Projektseite