Im Rahmen der quantitativen Analyse in den Blick genommen werden konkret die musterhaften Ausprägungen der Textoberfläche, die - so die Annahme - auf Gegebenheiten der thematischen, funktionalen, sozialen und stilistischen Dimension hinweisen bzw. diese repräsentieren. Zum großen Teil können die betreffenden Textmuster mit automatisierten Verfahren extrahiert werden. So finden sich z.B. in Andachtsbüchern häufig Wiederholungsstrukturen, die vermutlich der Einprägsamkeit und dem meditativen Charakter des Textes dienen sollen. Solche Wiederholungsstrukturen können durch Wort- oder Phrasenwiederholungen sowie durch grammatische Parallelismen auf der Textoberfläche realisiert sein.

Für die automatische Merkmalsextraktion sind Annotationen bestimmter Texteigenschaften besonders ausschlaggebend: So weisen die Dokumente des DTA bereits TEI-Auszeichnungen von Textgliederungsstrukturen und (ggf.) Binnentextsorten auf. Darüber hinaus stellt das DTA Ausgabeformate bereit, die linguistische Informationen auf Token-Ebene (z.B. Lemma, Wortart und modernisierte Schreibweise) enthalten. Mithilfe dieser Informationen lassen sich bereits viele der zu untersuchenden Merkmale in den Texten automatisch ermitteln. Für weiterführende Analyseschritte, z.B. zu (morpho-)syntaktischen Strukturen, Koreferenzen oder Eigennamen, kann außerdem auf computerlinguistische Verfahren zurückgegriffen werden, die mittlerweile vielfältig frei zur Verfügung stehen (z.B. in CLARINs WebLicht integrierte Syntaxparser). Die Merkmalsextraktion wird häufig vielschichtig sein, d.h. mehrere Informationstypen gleichzeitig in Betracht ziehen und auswerten. Auf die automatische Merkmalsextraktion ebenso wie auf die manuelle Annotation folgt dann die statistische Auswertung der erhobenen Merkmale, wiederum mit automatischen Verfahren.

Die qualitativ orientierte manuelle Annotation berührt Aspekte der funktionalen, stilistischen, thematischen und Beziehungsdimension, die mittels automatischer Verfahren nicht erschlossen werden können. Das Projektteam hat sich für die manuelle Annotation für das browserbasierte Textannotations- und -analysetool CATMA 6.0 entschieden, da es die Möglichkeit bietet, taxonomisch aufgebaute individuelle Tagsets beliebiger Komplexitätsstufen zu erstellen, indem Annotationen problemlos verändert werden können.

CATMA 6.0 erlaubt problemlos den für das Inter-Annotator-Agreement wichtigen Abgleich von Annotationen. Durch die Möglichkeit des XML-Imports und -Exports ist zudem die Nach- und Weiternutzbarkeit der Daten sichergestellt. Die in CATMA annotierten und daraus exportierten Daten werden in eine TEI-P5-Repräsentation überführt und können in dieser Form der weiteren automatischen Bearbeitung zugeführt werden. Sie können somit auch mit den Merkmalen kombiniert werden, die aus der automatischen Datenanalyse gewonnen wurden. Die Annotationen werden dann daraufhin ausgewertet, ob sie Rückschlüsse auf die Wandelprozesse gemäß den Beschreibungsdimensionen und von dort ausgehend bisher in der Forschung etablierte Deutungshypothesen stützen können.

Neben der manuellen Annotation werden die bei der quantitativen Analyse erhobenen Daten qualitativ ausgewertet. Allerdings können auch die Ergebnisse der qualitativen Analyse wieder für Anlass für quantitative Erhebungen sein.

Wir sind der Auffassung, dass sich sprachliche Indikatoren auf der Textoberfläche für die unterschiedlichen Dimensionen teils mittels automatischer Verfahren und computerlinguistischer Software und teils bisher nur mittels manueller Annotation erschließen lassen. Abb. 2 zeigt am Beispiel der funktionalen Dimension, welche sprachlichen Indikatoren ihr zugeordnet werden können und mit welchen automatischen Verfahren diese bearbeitet werden können.

Abb. 3 zeigt hingegen die Aspekte der funktionalen Dimension die nur mittels manueller Annotation bearbeitet werden können. Auf den nachfolgenden Abb. finden sich die übrigen Dimensionen und ihre jeweilige Bearbeitung.

Quantitative Ermittlung

Qualitative Ermittlung

Quantitative Ermittlung

Qualititative Ermittlung

Quantitative Ermittlung

Qualitative Ermittlung