Annotation
In InterGramm wurde das Annotationstool CorA (Bollmann u. a. 2014) weiterentwickelt. Zur Abgrenzung wurde die Weiterentwicklung CorAlie genannt. Das Tool CorAlie hat dabei folgende Zusatzfunktionen erhalten:
- Annotation von (grammatischen) Mehrworteinheiten: Das Tool wurde um die
Möglichkeit des Zusammenfassens und der Annotation von sog. komplexen Funktionswörtern, bestehend aus mehreren Token, erweitert. - Annotation von Unsicherheit: Annotationen sind generell von Unsicherheiten betroffen. Daher wurde das Tool derart erweitert, dass der Unsicherheitstyp sowie eine zweite unsicher zutreffende Wortart angegeben werden können.
- Annotation von Konstruktionen: Für das Auswählen und Annotieren von Konstruktionen musste ein komplett neues Interface implementiert werden, der sog. Phrasen-Editor. Anders als im Token-Editor, der den Text in einer tabellarischen Ansicht darstellt, werden hier die Token eines Textes in einem Feld als Fließtext angezeigt. Die Konstruktionen müssen in diesem Feld mit der Computermaus markiert werden. Die markierte Konstruktion wird in einer Tabelle oberhalb des Fließtextes gespeichert und kann dort annotiert werden. Es kann ebenfalls eine unsichere Annotation vergeben werden.
Die Arbeit erfolgt über die Benutzungsschnittstelle upb::Annotate, die folgende Anforderungen erfüllt:
- Quellen-getreue Darstellung des Textes: Die Darstellung des Textes im graphischen Nutzer-Interface erfolgt entsprechend dem Layout der Primärquelle.
- Multi-Layer-Annotationen: Sowohl Wortarten als auch Konstruktionen werden im gleichen Nutzer-Interface angezeigt und können somit gleichzeitig annotiert werden.
- Wortarten-Annotationen mit Unsicherheiten: Für die POS-Annotation stehen drei Annotationsebenen zur Verfügung: Wortart, unsichere Wortart mit Unsicherheitstyp und Kommentar.
- Gruppen-Annotationen mit Unsicherheiten: Es wurden zwei verschiedene Arten von Gruppierungen implementiert: komplexe Token zum Zusammenfassen der komplexen Funktionswörter und Phrasen zum Zusammenfassen von Konstruktionen. Es stehen folgende Annotationsebenen zur Verfugung: Wortart, unsichere Wortart mit Unsicherheitstyp, Konstruktionstag, unsicheres Konstruktionstag mit Unsicherheitstyp und Kommentar.
- Editierbarkeit der Token: Weiterhin sind die Token editierbar, um eine konsistente Annotation mit Wortarten vornehmen zu können.
- Anbindung zum Maschinellen Lernen: Es gibt eine einfache Anbindung fur die externe Komponenten des Maschinellen Lernens, mit denen der Zugriff auf die Datenbanksichergestellt wird.
- Suche und Visualisierung: Die digitalisierten Texte sind durchsuchbar, die Ergebnisse können exportiert und/oder auf einer Landkarte dynamisch dargestellt werden.