IDS-Logo

Direktion und zentrale Forschung

TextTransfer

Korpusgestützte Erkennung von Verwertungsmustern in wissenschaftlichen Texten

Projektansatz

Forschungsergebnisse aller Disziplinen liegen zumeist in Gestalt von Projektberichten vor. Nach Abschluss der Projektlaufzeit werden solche Dokumente in der Regel in spezialisierten Gedächtnisorganisationen digital archiviert. Eine nachträgliche Nutzung der in diesen Berichten konzentrierten Erkenntnisse findet jedoch oft nicht statt, sodass wertvolles Wissen potenziellen Nutzern und Nutzerinnen entgeht.

Das Verbundprojekt TextTransfer, das seit dem 01.12.2016 für die Dauer von zwei Jahren durch das BMBF gefördert wird, zielt unter Verwendung moderner linguistischer Methoden der Korpusanalyse auf die maschinengestützte Auswertung dieser Texte auf der Suche nach verwertungsrelevanten Mustern und Zusammenhängen.

Projektbeschreibung und Projektziele

Forschungsergebnisse liegen zumeist als wissenschaftliche Texterzeugnisse vor, deren unüberschaubare Vielzahl in ihrem Gehalt und ihrer Verwertungsrelevanz oft nur zeitverzögert oder gar nicht wahrgenommen wird. Dies trifft vor allem auf potenzielle Nutzerkreise außerhalb der Wissenschaften zu, denen eine systematische Auswertung fachfremder wissenschaftlicher Erzeugnisse meist verwehrt bleibt. Andersherum sind wissenschaftliche Einrichtungen kaum in der Lage, anhand einer breiten Datenbasis zuverlässig zu erkennen, welche Vorgehensweisen in Projektanträgen zu einem verwertbaren Ergebnis geführt haben.

Gleichzeitig wird, trotz der Investitionen öffentlicher Mittel in die Wissenschaft, das Potenzial aus der Anwendung von deutschsprachigen Forschungsergebnissen bislang nicht hinreichend genutzt. TextTransfer setzt an dieser Stelle an.

Zentrale Aufgabe des Projektes ist es zu prüfen, inwiefern Korpusanalysemethoden in Konzeptionen und Lösungsstrategien von Forschungsfragen verwertungsrelevante Muster zu erkennen vermögen.

Nach Festlegung des Bezugsrahmens, der u.a. den für die Fragestellung erfolgsversprechender Dokumententyp als auch spezifische Domänen definiert, wird eine Stichprobe ausgewählt. Die angewandte Methode besteht darin, den ausgewählten Texttyp mit bestimmte Muster repräsentierende Informationen durch manuelle Analyse anzureichern (Annotation), die dann auf Basis einschlägiger Lernverfahren einer entsprechend angepassten Software automatisiert Indizien für ähnliche Strukturen in großen Textmengen ermöglicht (distant reading). Die ausgewählte Stichprobe muss hierfür vorab in das maschinenlesbare Format TEI I5 konvertiert werden.

Ist der Nachweis für die Funktionalität dieser Methode erbracht, kann die Software in einem zweiten Schritt befähigt werden, unbekannte, nicht-annotierte Texte auf gewünschte Muster zu durchsuchen.

Eine zentrale Fragestellung des Projektes ist dabei, welche Informationen über die tatsächliche Verwertung einzelner Forschungsergebnisse in welcher Form gewonnen und den Projektergebnissen zugeordnet werden können.

Zu identifizieren sind somit spezifische Musterzusammenhänge, die ein Verwertungspotenzial von Forschungsansätzen nahelegen. Die Suchmethode muss außerdem in der Lage sein, sehr große Datenmengen, wie sie sich durch zahlreiche Projektanträge und –berichte bei den zuständigen Fachbibliotheken anhäufen, gezielt nach bestimmten verwertungsrelevanten Themen mit möglichst wenig Aufwand zu durchsuchen.

Ein automatisiertes Verfahren ist zu entwickeln, das in erster Linie die Wissenschaft unterstützt, Verwertungspotenziale in wissenschaftlichen Texten besser zu identifizieren und so den Wirkungsgrad von Investitionen in die Forschung zu optimieren.

Verbundpartner

Neben dem IDS ist an dem Transferprojekt als Verbundpartner die Technische Informationsbibliothek (TIB), Hannover, die ebenfalls Mitglied der Leibniz Gemeinschaft ist, beteiligt.

Der Projektpartner IDS konzentriert sich im Rahmen von TextTransfer auf die Entwicklung eines Kriterieninventars verwertungsrelevanter Zusammenhänge, die Annotation von Textquellen sowie auf die exemplarische Adaption vorhandener Softwarelösungen für den Funktionsnachweis der Methode und steckt die Rahmenbedingungen für deren Anwendung bzw. Verwertung ab.

Die Aufgabe des Projektpartners TIB ist es, einen bedarfsgerecht zugeschnittenen Korpus von Forschungsberichten als Stichprobe zur Verfügung zu stellen und gewährleistet die Extraktion aus vielfältigen elektronischen Quellformaten in das Zielformat XML-TI5.

Unterstützt werden die Verbundpartner von den Unterauftragsnehmern Görgen & Köller GmbH und der Arbeitsgruppe um Prof. Dr. Jana Diesner der ISchool an der Universität von Illinios, Urbana-Champaign (UIUC).

Mitarbeiter