Zurück zur News-Liste

Menschliche Stimme zerlegen, verstehen und manipulieren

11.07.2023 | Forschung, Sonderforschungsbereiche, Künstliche Intelligenz, Mitteilung, TRR 318 - Technisch unterstütztes Erklären von Stimmcharakteristika (Teilprojekt C06)

Ein Beitrag von Mitteilung

Ein Team aus Informatiker*innen und Linguist*innen der Universitäten Bielefeld und Paderborn hat untersucht, wie man verschiedene Teile der menschlichen Sprache voneinander trennen und damit besser analysieren und verändern kann. Die Ergebnisse fließen in die Forschung des TRR-Teilprojekts C06 „Technisch unterstütztes Erklären von Stimmcharakteristika“ ein.

„Die menschliche Stimme ist ein komplexes Konstrukt aus Überlagerungen verschiedener Einflussfaktoren. Dadurch hat sie verschiedene Eigenschaften, die nur schwer zu identifizieren sind“, sagt Professor Dr. Reinhold Häb-Umbach, Professor für Nachrichtentechnik an der Universität Paderborn und einer der Leiter des Teilprojekts C06. „Indem wir Sprachsignale in verschiedene Komponenten zerlegen, können wir mehr darüber erfahren, was unsere Stimmen einzigartig macht.“

Bei den Komponenten wird zwischen sprachlich-inhaltlichen Eigenschaften – was jemand sagt – und klanglichen Eigenschaften – wie die Stimme dabei klingt – unterschieden. In ihrer Veröffentlichung zeigen die Forschenden, wie die einzelnen Komponenten auf der klanglichen Ebene zusammenhängen. Dafür erstellten sie ein Modell aus neuronalen Netzen, das die verschiedenen klanglichen Aspekte voneinander trennt. Dieses kann dafür genutzt werden, eine neue synthetische Sprache mit gezielt veränderten Eigenschaften, zum Beispiel einer gewünschten mittleren Tonhöhe (Pitch), zu erzeugen.

Die Ergebnisse präsentierten die Forscher*innen in ihrem Artikel „Speech Disentanglement for Analysis and Modification of Acoustic and Perceptual Speaker Characteristics“ (deutsch: Entflechtung von Sprache zur Analyse und Modifikation akustischer und wahrnehmungsbezogener Sprechereigenschaften). „Mit der Veröffentlichung tragen wir dazu bei, zu verstehen, wie wir mit dem Computer verschiedene Aspekte von Sprache verstehen und verändern können“, fasst Frederik Rautenberg, Mitautor des Artikels und ebenfalls Forschender im Teilprojekt C06, zusammen. „Damit können wir Sprachveränderungsprogramme entwickeln, die zum Beispiel Menschen mit Sprechschwierigkeiten helfen können.“

Der Artikel wurde auf der 49. Jahrestagung für Akustik (DAGA) vorgestellt. Die DAGA ist die größte Konferenz zum Thema Akustik im deutschsprachigen Raum und fand vom 6. bis 9. März in Hamburg statt.

Projekt C06 „Technisch unterstütztes Erklären von Stimmcharakteristika“

Das Teilprojekt C06 untersucht in seiner Forschung Stimmcharakteristika und wie man sie mit dem Computer manipulieren kann. Ziel ist es, ein intelligentes System zu entwickeln, das Expert*innen einsetzen können, um Laien das Phänomen Stimme erklären zu können.

Weitere Informationen:

Link zum Teilprojekt C06
Webseite der Jahrestagung für Akustik in Hamburg: https://www.daga2023.de/
Artikel „Speech Disentanglement for Analysis and Modification of Acoustic and Perceptual Speaker Characteristics“ von Frederik Rautenberg, Michael Kuhlmann, Janek Ebbers, Jana Wiechmann, Fritz Seebauer, Petra Wagner und Reinhold Häb-Umbach: https://ris.uni-paderborn.de/record/44849

Foto (TRR 318): Frederik Rautenberg, wissenschaftlicher Mitarbeiter im Teilprojekt C06.
Download (1 MB)

Kontakt

Prof. Dr. Reinhold Häb-Umbach

Nachrichtentechnik (NT) / Heinz Nixdorf Institut

Leiter des Fachgebiets Nachrichtentechnik

E-Mail schreiben +49 5251 60-3626

Mehr zur Person

Frederik Rautenberg

Nachrichtentechnik (NT) / Heinz Nixdorf Institut

Forschung & Lehre

E-Mail schreiben +49 5251 60-3680

Mehr zur Person