Interdisziplinäres Forscherteam entwickelt neue Methode zur Erforschung der Grammatik historischer Texte

28.05.2021 | Forschung

A contribution from Pressemitteilung

Forschungsprojekt im Bereich Digital Humanities an der Universität Paderborn abgeschlossen

Historischen Sprachwandel im Blick: Sprachen wandeln sich kontinuierlich im Gebrauch. Entstehen dabei neue grammatische Strukturen, die die Möglichkeiten der sprachlichen Darstellung erweitern, spricht man von einem Sprachausbau. Wissenschaftler*innen der Universität Paderborn haben untersucht, wie das Mittelniederdeutsche – im Spätmittelter die Schreibsprache im norddeutschen Raum – vom 14. bis 16. Jahrhundert ausgebaut wurde. Datenbasis bildete ein Korpus von lokalisierbaren und datierbaren städtischen Rechtstexten. Diese Textsorte wurde gewählt, da sie im Untersuchungszeitraum in besonderer Weise von Ausbauprozessen erfasst wird. Das Projekt „InterGramm" (Interaktive Grammatikanalyse historischer Texte), das seit 2017 von der Deutschen Forschungsgemeinschaft (DFG) mit rund einer halben Million Euro gefördert wurde, ist jetzt abgeschlossen.

An dem Projekt waren Wissenschaftler*innen der Germanistik (Prof. Dr. Doris Tophinke, Prof. Dr. Marie-Luis Merten), der Informatik (Prof. Dr. Eyke Hüllermeier, Marcel Wever) und der Computerlinguistik (Prof. Dr. Michaela Geierhos, Dr. Nina Seemann) beteiligt. In der grammatischen Kategorisierung der sprachlichen Strukturen, der sogenannten Annotation, sowie in der weiteren Analyse der annotierten Texte des Korpus wurden in mehrfacher Hinsicht neue Wege beschritten: Unter Verwendung von Methoden des maschinellen Lernens wurden adaptive Verfahren entwickelt, die berücksichtigen, dass Sprachentwicklungen nur auf Basis dynamischer Beschreibungskategorien – z. B. Wortarten und syntaktische Konstruktionen – angemessen erfasst werden können. Zudem wurde ein Software-Tool entwickelt, das Annotationsunsicherheiten systematisch abbildet.

Spätmittelalterliche Texte sind – ähnlich wie es bis heute für die gesprochene Sprache gilt – in hohem Maße variabel, sodass Standardverfahren der automatischen Annotation nicht funktionieren und Expert*innen ggf. zeitaufwändig manuell annotieren müssen. Im Projekt wurde versucht, die Annotation durch Nutzung von Verfahren des maschinellen Lernens zu unterstützen und zu optimieren. Der Annotationsprozess wurde zweiphasig gestaltet: Phase 1: Auf der Grundlage einer partiellen, unsicheren Annotation lernt das System, grammatische Muster und mögliche Grammatikregeln zu induzieren. Es schlägt eine Erweiterung der bestehenden Annotation vor, wobei die Unsicherheit der Vorschläge angemessen abgebildet wird. Phase 2: Unterstützt durch eine entsprechende Benutzungsoberfläche, die im Projekt entwickelt wurde (upb@annotate), wird den Expert*innen die Möglichkeit gegeben, die einzelnen Vorschläge des Systems zu bestätigen oder zu verwerfen (oder unkommentiert und somit offen zu lassen). Auf diese Weise wird die bestehende Annotation erweitert und verbessert. Ziel dieses Vorgehens ist eine qualitativ hochwertige, kontextsensitive Analyse des gesamten Korpus, die die Fragen zum Sprachausbau im Mittelniederdeutschen evidenzbasiert beantwortet: Welche Ausbauprozesse finden sich? Wie weit geht der Ausbau? Wie schnell setzen sich welche Ausbauprozesse durch?

In der interdisziplinären Kooperation wurden – mit Blick auf den Forschungsstand in der Linguistik, Computerlinguistik und Informatik – neue theoretische und methodische Erkenntnisse gewonnen. Erstmals wurde der Unsicherheitsbegriff in der Annotation und Analyse historischer Texte fächerübergreifend diskutiert, um Unsicherheit und Unschärfe auf verschiedenen Analyseebenen systematisch zu erfassen und für das maschinelle Lernen nutzbar zu machen. Auch wurden korpusbasiert vertiefte Einsichten in den Sprachausbau der mittelniederdeutschen Rechtssprache gewonnen. Besonders dynamische Bereiche des Sprachausbaus – vor allem auf Ebene der Wortarten – konnten identifiziert werden.

Weitere Informationen zum Projekt unter: www.uni-paderborn.de/forschungsprojekte/intergramm/.