Forschung­sziele und -meth­oden

Ziel des Projekts ist die Ermittlung geeigneter Indikatoren für historischen Textmusterwandel anhand einschlägiger Textsorten der Gebrauchsliteratur der jüngeren Sprachgeschichte. Ausgewählt wurden die Erbauungsliteratur (1650-1800), etwa Leichenpredigten, Gebets- und Andachtsbücher, sowie die unterschiedlichen Textsorten der Pressekommunikation (1830-1929), zu denen informations- und meinungsbetonte, jedoch auch feuilletonistische Textsorten gehören. Es werden zu den beiden Genres Nachdigitalisierungen (174 Ausgaben der Allgemeinen Zeitung, 37 Werke erbaulicher Textsorten) vorgenommen, die in das Deutsche Textarchiv (DTA) eingehen. Die Nachdigitalisierungen erlauben über das Forschungsvorhaben hinaus etwa Untersuchungen zur Zeitungskommunikation, die vom 18. Jahrhundert bis zum Beginn des 20. Jahrhunderts reichen können.

Trotz ihrer sprachhistorischen Bedeutung erfolgten Untersuchungen zum Textmusterwandel innerhalb der betrachteten Textsorten bislang nur auf sehr schmaler Materialgrundlage. Deshalb soll ein im Rahmen der Vorarbeiten entworfenes Modell zur Erfassung von Textmusterwandel systematisch korpusbasiert erprobt und weiterentwickelt werden (s. qualitative und quantitative Forschung). Zugrunde gelegt werden Textsorten der Presseliteratur einerseits und der Erbauungsliteratur andererseits, weil sie in den jeweiligen Untersuchungszeiträumen einen festen Sitz im Leben breiter Rezipientenkreise hatten. Durch die Verschiedenheit der untersuchten Korpora sind profunde Aussagen zu Erscheinungsformen des Textmusterwandels möglich, wodurch die Anwendbarkeit der im Projekt entwickelten Verfahren für die Untersuchung weiterer Textsorten gewährleistet wird.

Das dem Projekt zugrundeliegende mehrdimensionale Modell soll im Projekt an einer breiten Materialgrundlage überprüft und das Modell dabei so operationalisiert werden, dass automatische und manuelle Textanalyse sowie quantitative und qualitative Auswertung ineinandergreifen und sich wechselseitig informieren. Damit soll ein Standardworkflow für die historische Textanalyse geschaffen werden. Gleichzeitig soll dieses Vorgehen ermöglichen, ein differenziertes Vokabular für den Textmusterwandel zu entwickeln, das über die Bestimmung von „Divergenz“, „Konvergenz“ und „Hybridisierung“ u.ä. hinausgeht und das Zusammenspiel solcher Faktoren wie Medium, kulturelle Hintergründe und Wissensstrukturen näher in den Blick nimmt.

Quant­it­at­ive und qual­it­at­ive Forschung

Das im Forschungsvorhaben zugrunde gelegte Analysemodell stellt eine Synthese der in der Textlinguistik der letzten Jahrzehnte vorgestellten mehrdimensionalen Modelle dar. Gleichzeitig wird der Forschungsstand zur historischen Zeitungskommunikation und zur Erbauungsliteratur einbezogen. Ausgehend von Textoberfläche gibt der Sprachgebrauch u.E. Hinweise auf die funktionale, thematische, stilistische und die Beziehungsdimension von Texten.

Im Rahmen der quantitativen Analyse in den Blick genommen werden konkret die musterhaften Ausprägungen der Textoberfläche, die - so die Annahme - auf Gegebenheiten der thematischen, funktionalen, sozialen und stilistischen Dimension hinweisen bzw. diese repräsentieren. Zum großen Teil können die betreffenden Textmuster mit automatisierten Verfahren extrahiert werden. So finden sich z.B. in Andachtsbüchern häufig Wiederholungsstrukturen, die vermutlich der Einprägsamkeit und dem meditativen Charakter des Textes dienen sollen. Solche Wiederholungsstrukturen können durch Wort- oder Phrasenwiederholungen sowie durch grammatische Parallelismen auf der Textoberfläche realisiert sein.

Für die automatische Merkmalsextraktion sind Annotationen bestimmter Texteigenschaften besonders ausschlaggebend: So weisen die Dokumente des DTA bereits TEI-Auszeichnungen von Textgliederungsstrukturen und (ggf.) Binnentextsorten auf. Darüber hinaus stellt das DTA Ausgabeformate bereit, die linguistische Informationen auf Token-Ebene (z.B. Lemma, Wortart und modernisierte Schreibweise) enthalten. Mithilfe dieser Informationen lassen sich bereits viele der zu untersuchenden Merkmale in den Texten automatisch ermitteln. Für weiterführende Analyseschritte, z.B. zu (morpho-)syntaktischen Strukturen, Koreferenzen oder Eigennamen, kann außerdem auf computerlinguistische Verfahren zurückgegriffen werden, die mittlerweile vielfältig frei zur Verfügung stehen (z.B. in CLARINs WebLicht integrierte Syntaxparser). Die Merkmalsextraktion wird häufig vielschichtig sein, d.h. mehrere Informationstypen gleichzeitig in Betracht ziehen und auswerten. Auf die automatische Merkmalsextraktion ebenso wie auf die manuelle Annotation folgt dann die statistische Auswertung der erhobenen Merkmale, wiederum mit automatischen Verfahren.

Die qualitativ orientierte manuelle Annotation berührt Aspekte der funktionalen, stilistischen, thematischen und Beziehungsdimension, die mittels automatischer Verfahren nicht erschlossen werden können. Das Projektteam hat sich für die manuelle Annotation für das browserbasierte Textannotations- und -analysetool CATMA 6.0 entschieden, da es die Möglichkeit bietet, taxonomisch aufgebaute individuelle Tagsets beliebiger Komplexitätsstufen zu erstellen, indem Annotationen problemlos verändert werden können.

CATMA 6.0 erlaubt problemlos den für das Inter-Annotator-Agreement wichtigen Abgleich von Annotationen. Durch die Möglichkeit des XML-Imports und -Exports ist zudem die Nach- und Weiternutzbarkeit der Daten sichergestellt. Die in CATMA annotierten und daraus exportierten Daten werden in eine TEI-P5-Repräsentation überführt und können in dieser Form der weiteren automatischen Bearbeitung zugeführt werden. Sie können somit auch mit den Merkmalen kombiniert werden, die aus der automatischen Datenanalyse gewonnen wurden. Die Annotationen werden dann daraufhin ausgewertet, ob sie Rückschlüsse auf die Wandelprozesse gemäß den Beschreibungsdimensionen und von dort ausgehend bisher in der Forschung etablierte Deutungshypothesen stützen können.

Neben der manuellen Annotation werden die bei der quantitativen Analyse erhobenen Daten qualitativ ausgewertet. Allerdings können auch die Ergebnisse der qualitativen Analyse wieder für Anlass für quantitative Erhebungen sein.

Wir sind der Auffassung, dass sich sprachliche Indikatoren auf der Textoberfläche für die unterschiedlichen Dimensionen teils mittels automatischer Verfahren und computerlinguistischer Software und teils bisher nur mittels manueller Annotation erschließen lassen. Abb. 2 zeigt am Beispiel der funktionalen Dimension, welche sprachlichen Indikatoren ihr zugeordnet werden können und mit welchen automatischen Verfahren diese bearbeitet werden können.

Abb. 3 zeigt hingegen die Aspekte der funktionalen Dimension die nur mittels manueller Annotation bearbeitet werden können. Auf den nachfolgenden Abb. finden sich die übrigen Dimensionen und ihre jeweilige Bearbeitung.

Zum Vorge­hen in den übri­gen Ana­lysed­i­men­sion­en auf quant­it­at­iver und qual­it­at­iver Ebene

Quantitative Ermittlung

Qualitative Ermittlung

Quantitative Ermittlung

Qualititative Ermittlung

Quantitative Ermittlung

Qualitative Ermittlung

Zur Aus­­wer­­­tung der Er­­ge­b­n­is­se

Die Ergebnisse der statistischen Auswertung sollen in Rückbindung an die Quellen interpretiert und qualifiziert werden; ebenso sollen die Ergebnisse der manuellen Annotation zur automatischen Merkmalsextraktion genutzt werden. Diese Verzahnung von quantitativer und qualitativer Analyse wird in einer Pilotierungsphase erprobt. Wir gehen prinzipiell davon aus, dass durch die automatische Textanalyse andere Aspekte des Textmusterwandels in den Blick geraten (z.B. zeitübergreifende Wandeltendenzen) als durch eine manuelle Annotation, die Ergebnisse aber aufeinander bezogen werden können.

Tag­sets und manuelle An­nota­tion

Kondens­at des Vorhabens im DHd-Poster (Kopie 1)

Das Poster, das im Rahmen der im März 2020 abgehaltenen DHd-Jahrestagung "Spielräume" erarbeitet wurde, gibt das geschilderte Projektvorhaben in kondensierter und exemplarischer Form wieder.