Project | Paderborn University

Overview

In diesem Vorhaben sollen Verfahren zur automatischen Spracherkennung für komplexe Erkennungsaufgaben mit großem Vokabular entwickelt werden für den Fall, dass die aufgenommene Sprache durch Raumhall und additives Rauschen gestört ist. Um eine möglichst breite Einsetzbarkeit zu gewährleisten, wird dabei von lediglich einkanalig vorliegenden Sprachaufnahmen ausgegangen. Ausgangspunkt der Untersuchungen ist auf der einen Seite ein in Vorarbeiten entwickeltes Bayes'schen Merkmalsverbesserungsverfahren, welches sich auf kleineren Erkennungsaufgaben als sehr effektiv erwiesen hat, sowie auf der anderen Seite ein ausgefeiltes Spracherkennungssystem für großes Vokabular, das sich bereits in vielen internationalen Projekten und Benchmarks bewährt hat. Das Merkmalsverbesserungsverfahren soll weiterentwickelt werden, um auch den höheren Anforderungen eines großen Erkennungsvokabulars gerecht zu werden, und in das große Erkennungssystem optimal integriert werden, um einen leistungsfähigen Erkenner von mit entfernten Mikrofonen aufgenommener Sprache bei großen Vokabularien zu realisieren.

DFG-Verfahren Sachbeihilfen

Antragsteller Professor Dr.-Ing. Reinhold Häb-Umbach; Privatdozent Dr. Ralf Schlüter

Key Facts

Grant Number:: 235486169

Project duration:: 01/2013 - 12/2019

Funded by:: DFG

Website:: DFG-Datenbank gepris

More Information

Principal Investigators

Prof. Dr. Reinhold Häb-Umbach

Communications Engineering / Heinz Nixdorf Institute

About the person

Ralf Schlüter

Rheinisch-Westfälische Technische Hochschule Aachen (RWTH)

About the person (Orcid.org)

Results

Das übergreifende Ziel des Vorhabens war die Entwicklung von Verfahren, die eine robuste Spracherkennung für großes Vokabular in Gegenwart von Raumhall und Umgebungsrauschen ermöglichen. Die durchgeführten Arbeiten gliedern sich dabei grob in fünf Bereiche. (i) Die Entwicklung eines Denoising Autoencoder (DA) zur Enthallung von Sprachsignalen. Zum Training eines DA werden normalerweise parallele Daten benötigt, wobei die ungestörte Version des Signals als Ziel an den Ausgang und die gestörte Version an den Eingang des Netzes gelegt werden. Das Besondere des hier entwickelten Verfahrens war, dass parallele Daten nicht benötigt werden, weil das ungestörte Zielsignal mit dem in Vorarbeiten entwickelten Bayes’schen Merkmalsextraktionsverfahren (Bayesian Feature Enhancement (BFE)) geschätzt wird. Damit können auch reale Aufnahmen gestörter Signale, bei denen parallele Aufnahmen von ungestörter und gestörter Version der Signale in der Regel nicht vorhanden sind, zum Training verwendet werden. (ii) Die Entwicklung eines akustischen Strahlformers (Beamformers), dessen Koeffizienten unter Zuhilfenahme eines neuronalen Netzes geschätzt werden. Das neuronale Netz übernimmt die Funktion eines hochauflösenden Sprachaktivitätsdetektors und gibt für jeden Zeit-Frequenz-Punkt an, ob er das Zielsprachsignal enthält oder nicht. Mit dieser vom Netz gelieferten Maske können dann die räumlichen Kovarianzmatrizen des Nutzsignals und der Störung berechnet werden, woraus wiederum die Strahlformerkoeffizienten nach bekannten Regeln statistisch optimaler Mehrkanalfilterung berechnet werden, z.B. die MVDR (Minimum Variance Distortionless Response) Lösung. (iii) Die Entwicklung von Verfahren zum gemeinsamen Training des erwähnten neuronalen Netzes zur Maskenschätzung und des neuronalen Netzes im akustischen Modell des Spracherkenners. Um den Maskenschätzer mit dem Cross Entropy Kriterium am Ausgang des neuronalen Netzes für das akustische Modell trainieren zu können, war es nötig, den Gradienten durch die komplexwertigen Operationen des akustischen Strahlformers zu propagieren. Dazu wurden Ableitungsregeln nach dem Wirtinger Kalkül für die Eigenwertzerlegung komplexwertiger Kovarianzmatrizen entwickelt. Durch die Rückführung des Gradienten aus dem akustischen Modell benötigt das Training des Maskenschätzers keine parallelen Daten mehr. (iv) Die Evaluation der entwickelten Spracherkennungssysteme in internationalen Vergleichstests (CHiME-3 und CHiME-4), bei dem sowohl das Paderborner System alleine als auch das mit dem Projektpartner RWTH Aachen und dem Forschungsinstitut FORTH, Kreta, gemeinsam entwickelte System vordere Plätze belegte. (v) Die Bereitstellung der entwickelten netzunterstützten akustischen Strahlformer als Open Source Software. Die im Rahmen des Projekts entwickelte netzunterstützte akustische Strahlformung wurde von vielen Forschergruppen übernommen. Dieser Erfolg ist zum einen dadurch geschuldet, dass das Thema der geräusch- und hallrobusten Spracherkennung durch den kommerziellen Erfolg der sog. intelligenten Lautsprecher (z.B. Amazon Echo, Google Home oder Apple Homepad) zurzeit in der wiss. Welt eine hohe Aufmerksamkeit erfährt. Der andere Grund liegt sicherlich in dem sehr guten Abschneiden unserer Gruppe bei den CHiME Vergleichstests und der Bereitstellung der Software als Open Source. Die Zusammenarbeit mit der RWTH Aachen hat sich insgesamt für beide Seiten als sehr fruchtbar erwiesen.

Projektbezogene Publikationen (Auswahl)

BLSTM supported GEV Beamformer Front-End for the 3RD CHiME Challenge, in Automatic Speech Recognition and Understanding Workshop (ASRU 2015), December 2015

J. Heymann, L. Drude, A. Chinaev, R. Haeb-Umbach

(Siehe online unter https://dx.doi.org/10.1109/ASRU.2015.7404829)

Unsupervised adaptation of a denoising autoencoder by Bayesian Feature Enhancement for reverberant asr under mismatch conditions, in Acoustics, Speech and Signal Processing (ICASSP), 2015 IEEE International Conference on, April 2015, S. 5053–5057

J. Heymann, R. Haeb-Umbach, P. Golik, R. Schlüter

(Siehe online unter https://dx.doi.org/10.1109/ICASSP.2015.7178933)

Neural Network Based Spectral Mask Estimation for Acoustic Beamforming, in Proc. IEEE Intl. Conf. on Acoustics, Speech and Signal Processing (ICASSP), 2016

J. Heymann, L. Drude, R. Haeb-Umbach

(Siehe online unter https://dx.doi.org/10.1109/ICASSP.2016.7471664)

Noise-Presence-Probability-Based Noise PSD Estimation by Using DNNs, in 12. ITG Fachtagung Sprachkommunikation (ITG 2016), Oct 2016

A. Chinaev, J. Heymann, L. Drude, R. Haeb-Umbach

The RW-TH/UPB/FORTH System Combination for the 4th CHiME Challenge Evaluation, in CHiME4 Workshop, 2016

T. Menne, J. Heymann, A. Alexandridis, K. Irie, A. Zeyer, M. Kitza, P. Golik, I. Kulikov, L. Drude, R. Schlüter, H. Ney, R. Haeb-Umbach, A. Mouchtaris

Wide Residual BLSTM Network with Discriminative Speaker Adaptation for Robust Speech Recognition, in CHiME4 Workshop, 2016

J. Heymann, L. Drude, R. Haeb-Umbach

A Generic Neural Acoustic Beamforming Architecture for Robust Multi-Channel Speech Processing, Computer Speech and Language, 2017

J. Heymann, L. Drude, R. Haeb-Umbach

(Siehe online unter https://doi.org/10.1016/j.csl.2016.11.007)

BEAMNET: End-to-End Training of a Beamformer-Supported Multi-Channel ASR System, in Proc. IEEE Intl. Conf. on Acoustics, Speech and Signal Processing (ICASSP), March 2017

J. Heymann, L. Drude, C. Boeddeker, P. Hanebrink, R. Haeb-Umbach

(Siehe online unter https://dx.doi.org/10.1109/ICASSP.2017.7953173)

Optimizing Neural-Network Supported Acoustic Beamforming by Algorithmic Diﬀerentiation, in Proc. IEEE Intl. Conf. on Acoustics, Speech and Signal Processing (ICASSP), March 2017

C. Boeddeker, P. Hanebrink, L. Drude, J. Heymann, R. Haeb-Umbach

(Siehe online unter https://dx.doi.org/10.1109/ICASSP.2017.7952140)

"NARA-WPE: A Python package for weighted prediction error dereverberation in Numpy and Tensorflow for online and offline processing," Speech Communication; 13th ITG-Symposium, 2018, pp. 1-5. ISBN 978-3-8007-4767-2

L. Drude, J. Heymann, C. Boeddeker, R. Haeb-Umbach

(2018): Frame-Online DNN-WPE Dereverberation. In: 2018 16th International Workshop on Acoustic Signal Enhancement (IWAENC). 2018. Tokyo, 17.09.2018 - 20.09.2018: IEEE, S. 466–470

J. Heymann, L. Drude, R. Haeb-Umbach, K. Kinoshita, T. Nakatani

(Siehe online unter https://doi.org/10.1109/IWAENC.2018.8521255)

More information about the project:

DFG-Datenbank gepris