Ein integrierter Ansatz zur Störgeräuschunterdrückung und blinden Trennung von Sprachsignalen

Überblick

In diesem Vorhaben sollen die bisher meist getrennt bearbeiteten Probleme der Geräuschreduktion und der blinden Trennung von Sprachsignalen gemeinsam betrachtet werden. Während in der Literatur meist von einer konstanten und bekannten Anzahl von Sprechern ausgegangen wird, soll hier ein Verfahren entwickelt werden, welches ein entstörtes und entmischtes Ausgangssignal hoher Qualität für wechselnde Gesprächssituationen liefert, in denen mal einer und ein andermal mehrere Sprecher aktiv sind. Zur Lösung des Problems wird die Dünnbesetztheit von Sprache im Zeit-Frequenzbereich ausgenutzt. Es wird ein neuartiges statistisches Modell entwickelt, in dem die Phasendifferenzen der Mikrofonsignale über ein Gemisch von direktionalen, d.h. auf einer Hyperkugel definierten Verteilungen und die Amplituden über ein Gemisch von Gamma-Verteilungen beschrieben werden, deren Parameter mit Hilfe des Expectation Maximization Algorithmus geschätzt werden. Die dabei abfallenden Sprachaktivitätswahrscheinlichkeiten werden zur Lösung des Permutationspro¬blems und zur Rekonstruktion der Quellensignale verwendet. Die zunächst für eine blockbasierte Verarbeitung entwickelten Schätzverfahren sollen anschließend in sequentielle Algorithmen überführt werden, um eine Geräuschreduktion und Quellentrennung mit möglichst geringer Latenz zu erreichen.

DFG-Verfahren Sachbeihilfen

Key Facts

Grant Number:
193484692
Laufzeit:
01/2010 - 12/2015
Gefördert durch:
DFG
Websites:
DFG-Datenbank gepris
Abgeschlossene Projekte des Fachgebietes

Detailinformationen

Projektleitung

contact-box image

Prof. Dr. Reinhold Häb-Umbach

Nachrichtentechnik (NT) / Heinz Nixdorf Institut

Zur Person