Technisch ermöglichte Erläuterung der Sprecher Eigenschaften

Überblick

Das Sprachsignal ist eine reichhaltige Informationsquelle, die nicht nur linguistische, sondern auch so genannte para- oder außersprachliche Inhalte vermittelt, die die Identität, das Geschlecht, den emotionalen oder kognitiven Zustand, das Alter und die Gesundheit eines Sprechers offenbaren. Diese Merkmale sind Gegenstand zahlreicher Untersuchungen in der Phonetik, aber aufgrund der hohen Komplexität der zugrundeliegenden Dimensionen sind sie oft auf stark kontrollierte Datensätze beschränkt, die nicht generalisiert sind. Praktisches Wissen über die Phonetik von Sprechereigenschaften ist auch für Sprachtherapeuten, Schauspieler oder öffentliche Redner unverzichtbar. Während die Sprachtechnologie in der Lage ist, die komplexen Signale, die den Sprechcharakteristika zugrunde liegen, zu klassifizieren und sogar zu entflechten, stellt die Disziplin bisher keine interpretierbaren Modelle zur Verfügung, die phonetischen Experten beim Wissenstransfer an nicht fachkundige Sprecher helfen. Unser Projekt wird daher die Möglichkeit untersuchen, technische Lösungen zu entwickeln, um die Generierung von Erklärungen innerhalb der Sprechwissenschaft zu unterstützen. Konkret argumentieren wir, dass die phonetische Realisierung einer Dimension der phonetischen Variation viel besser bestimmt werden kann, wenn zwei Sprechproben generiert werden, die den gleichen sprachlichen Inhalt enthalten und sich nur in der Ausprägung eines einzigen Merkmals unterscheiden. Diese Erklärungen sollten es Sprechern letztlich ermöglichen, die interessierenden paralinguistischen Dimensionen entweder zu identifizieren oder zu imitieren.

Key Facts

Laufzeit:
01/2021 - 12/2025
Gefördert durch:
DFG

Detailinformationen

Projektleitung

contact-box image

Prof. Dr. Reinhold Häb-Umbach

Nachrichtentechnik (NT) / Heinz Nixdorf Institut

Zur Person