Projekt | Universität Paderborn

Überblick

Das Projekt befasst sich mit der maschinenlesbaren Verschriftung von Gesprächssituationen unter Verwendung von Raummikrofonen, seien es professionelle Besprechungen oder lockere Treffen unter Freunden. Derzeitige technische Lösungen erreichen bei weitem nicht die Erkennungsleistung eines Menschen. Dies hat vornehmlich drei Gründe: Zum einen ist die Signalqualität aufgrund von Raumhall und anderen häufig nichtstationären Geräuschquellen im Raum schlecht. Weiterhin fallen sich gerade bei informellen Gesprächssituationen die Personen häufig ins Wort, und in einem signifikanten Anteil der Zeit sprechen mehr als ein Sprecher gleichzeitig. Schließlich ist es die Dynamik einer Gesprächssituation, die Probleme bereitet, da sich Segmente von Stille, Aktivität von einem oder gleichzeitig mehreren Sprechern abwechseln. Ein Transkriptionssystem sollte auf beliebig langen Eingangssignalen arbeiten können, Situationen mit keinem, einem oder mehreren Sprechern korrekt behandeln können und die Verschriftung der Äußerungen unterschiedlicher Sprecher konsistent separaten Ausgaben zuordnen können. Existierende Lösungen bestehen aus mehr oder weniger unabhängig entwickelten Komponenten für die Segmentierung der Daten in homogene Blöcke, für die Sprechertrennung und schließlich für die Erkennung. Wir sind überzeugt, dass eine signifikante Leistungssteigerung möglich ist, wenn diese Aufgaben unter einem einheitlichen Optimierungskriterium gemeinsam betrachtet werden. Ziel dieses Projektes ist es, eine solche kohärente Formulierung zu entwickeln. Wir entwickeln Verfahren zur Verschriftung von Gesprächen, bei denen die Anzahl der aktiven Sprecher und das Maß an Sprecherüberlapp vorab unbekannt und zeitveränderlich sind. Die Algorithmen zur Bestimmung, wer wann spricht, zur Sprechertrennung und Signalverbesserung, und schließlich zur Erkennung werden unter einer einheitlichen Zielfunktion hergeleitet, um schließlich ein gemeinsames "Ende-zu-Ende" Training aller Komponenten zu ermöglichen. Wir streben auch eine "Ende-zu-Ende" Erkennung an, um vorläufige Entscheidungen, bei denen nicht alle Wissensquellen berücksichtigt wurden, zu vermeiden. Dabei werden unterschiedliche (gänzlich neuronale, hybride, kaskadierte, integrierte) Architekturen betrachtet. Die entwickelten Verfahren werden bezüglich der erreichbaren Erkennungsgenauigkeit, aber auch bezüglich der Interpretierbarkeit der Teilkomponenten und der Handhabbarkeit bewertet.

DFG-Verfahren Sachbeihilfen

Antragsteller Professor Dr.-Ing. Reinhold Häb-Umbach; Privatdozent Dr. Ralf Schlüter

Key Facts

Grant Number:: 448568305

Laufzeit:: 05/2021 - 12/2024

Gefördert durch:: DFG

Website:: DFG-Datenbank gepris

Detailinformationen

Projektleitung

Prof. Dr. Reinhold Häb-Umbach

Nachrichtentechnik (NT) / Heinz Nixdorf Institut

Zur Person

Ralf Schlüter

Rheinisch-Westfälische Technische Hochschule Aachen (RWTH)

Zur Person (Orcid.org)

Publikationen

Meeting Recognition with Continuous Speech Separation and Transcription-Supported Diarization

T. von Neumann, C. Boeddeker, T. Cord-Landwehr, M. Delcroix, R. Haeb-Umbach, in: 2024 IEEE International Conference on Acoustics, Speech, and Signal Processing Workshops (ICASSPW), IEEE, 2024.

DOI PDF

Geodesic Interpolation of Frame-Wise Speaker Embeddings for the Diarization of Meeting Scenarios

T. Cord-Landwehr, C. Boeddeker, C. Zorilă, R. Doddipatla, R. Haeb-Umbach, in: ICASSP 2024 - 2024 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), IEEE, 2024.

DOI

Once more Diarization: Improving meeting transcription systems through segment-level speaker reassignment

C. Boeddeker, T. Cord-Landwehr, R. Haeb-Umbach, in: Interspeech 2024, ISCA, 2024.

DOI

Combining TF-GridNet and Mixture Encoder for Continuous Speech Separation for Meeting Transcription

P. Vieting, S. Berger, T. von Neumann, C. Boeddeker, R. Schlüter, R. Haeb-Umbach, in: 2024 IEEE Spoken Language Technology Workshop (SLT), 2024.

TS-SEP: Joint Diarization and Separation Conditioned on Estimated Speaker Embeddings

C. Boeddeker, A.S. Subramanian, G. Wichern, R. Haeb-Umbach, J. Le Roux, IEEE/ACM Transactions on Audio, Speech, and Language Processing 32 (2024) 1185–1197.

DOI PDF PDF PDF

Alle Publikationen anzeigen

Weitere Informationen zum Projekt:

DFG-Datenbank gepris