Unüberwachte audio-visuelle Geometriekalibrierung von verteilten Mikrofonfeldern

Überblick

Akustische Ereignisse stellen eine wichtige Quelle von Kontextinformation für ein maschinelles Perzeptionssystem dar. So können insbesondere sprechende Personen durch den Einsatz von Mikrofonfeldern lokalisiert und Signale unterschiedlicher Quellen getrennt werden. Dabei wird die Geometrie des Aufbaus, d. h. die relativen Positionen der Mikrofone zueinander und die absolute Position des Feldes im Raum, als bekannt vorausgesetzt. Für den praktischen Einsatz verteilter Mikrofonfelder – z. B. in einer intelligenten Umgebung – ist es aber nicht sinnvoll, derart einschränkende Annahmen bezüglich des Sensoraufbaus treffen zu müssen. Ziel dieses Projekts ist es daher, Methoden zu entwickeln, die eine komplett unüberwachte Kalibrierung der Geometrie von verteilten Mikrofonfeldern erlauben. Dazu wird die Kalibrierung als Maximum-Likelihood Schätzproblem formuliert. Zusätzlich sollen Verfahren entwickelt werden, die es erlauben, die relative Geometrie der akustischen Sensorik in einen Referenzrahmen einzubetten, der durch eine komplementäre Sensormodalität, wie z. B. visuelle Sensoren, gegeben ist. Es wird erwartet, dass mit den in diesem Projekt entwickelten Verfahren die Installation und der Einsatz audio-visueller Sensornetzwerke wesentlich vereinfacht wird. Dies stellt einen wichtigen Schritt hin zur Praxistauglichkeit von ”intelligenten“ audio-visuellen Systemen dar.

DFG-Verfahren Sachbeihilfen

Beteiligte Person Professor Dr.-Ing. Gernot A. Fink

Key Facts

Laufzeit:
01/2010 - 12/2014
Gefördert durch:
DFG
Websites:
DFG-Datenbank gepris
Abgeschlossene Projekte des Fachgebietes

Detailinformationen

Projektleitung

contact-box image

Prof. Dr. Reinhold Häb-Umbach

Nachrichtentechnik (NT) / Heinz Nixdorf Institut

Zur Person
contact-box image

Gernot Fink

Technische Universität Dortmund

Zur Person (Orcid.org)

Ergebnisse

In immer mehr Situationen kommen intelligente Geräte wie Laptops, Smartphones und auch Hörgeräte zusammen, welche mit einem oder mehreren Mikrofonen und Funkverbindungen ausgestattet sind. Um mit diesen Sprachverarbeitung in Form von Sprecherverfolgung oder Sprachverbesserung zu betreiben, ist es wichtig, die geometrische Anordnung der verteilten Mikrofonfelder zu kennen. Da manuelle Messungen zur Geometriekalibrierung de facto nicht praxistauglich sind, war es das Ziel dieses Projekts hierfür automatische Verfahren zu entwickeln. Die im Rahmen des Projekts entstandenen Methoden zur automatischen Geometriekalibrierung von ad hoc Konfigurationen verteilter Mikrofone und von Konfigurationen verteilter Mikrofongruppen basieren rein auf der Auswertung akustischer Signale, die von den Sensoren erfasst werden. Sie machen nicht die häufig in der Literatur zu findenden einschränkenden Annahmen, dass kein oder nur geringer Raumhall vorhanden sein darf, dass eine Taktsynchronisation zwischen den Sensorknoten vorhanden ist oder dass spezielle Kalibrierungssignale verwendet werden müssen. Vielmehr erfolgt die Kalibrierung mit dem Sprachsignal eines sich im Raum frei bewegenden Sprechers. Mit Hilfe dieser neuartigen Verfahren ist eine schnelle und zuverlässige akustische Geometriekalibrierung möglich, deren praktische Anwendbarkeit bei der ebenfalls entwickelten Methode zur Sprecherverfolgung unter Beweis gestellt wurde. Durch Einbettung in ein audiovisuelles Sensornetzwerk ließen sich die Ergebnisse der rein akustischen Kalibrierung bei bekannten Kamerapositionen auch auf Realweltkoordinaten übertragen. Neben der Veröffentlichung der entwickelten Verfahren auf Fachkonferenzen entstand aus der gemeinsamen Arbeit der Kooperationspartner auch ein Übersichtsartikel für das IEEE Signal Processing Magazine. In diesem Artikel werden selbst entwickelte und aus der Literatur bekannte Methoden zur automatischen Geometriekalibrierung von Mikrofonfeldern gegenübergestellt und in einem einheitlichen experimentellen Rahmen evaluiert.


Projektbezogene Publikationen (Auswahl)


Unsupervised Geometry Calibration of Acoustic Sensor Networks using Source Correspondences. 12th Annual Conference of the International Speech Communication Association (INTERSPEECH 2011) Florence, Italy, Vol. 1. 2011, pp. 604-607.

J. Schmalenstroer, F. Jacob, R. Haeb-Umbach, M. H. Hennecke, G. A. Fink


Reverberation-Robust Online Multi-Speaker Tracking by using a Microphone Array and CASA Processing. Acoustic Signal Enhancement; Proceedings of IWAENC 2012; International Workshop on 4-6 Sept. 2012, Aachen, Germany, ISBN: 978-3-8007-3451-1, pp. 1 - 4.

A. Plinge, M. H. Hennecke, G. A. Fink


DoA-Based Microphone Array Position Self-Calibration Using Circular Statistics. Acoustics, Speech and Signal Processing (ICASSP), 2013 IEEE International Conference on 26-31 May 2013, Vancouver, pp. 116 - 120.

F. Jacob, J. Schmalenstroeer, R. Haeb-Umbach

(Siehe online unter http://dx.doi.org/10.1109/ICASSP.2013.6637620)


Coordinate Mapping Between an Acoustic and Visual Sensor Network in the Shape Domain for a Joint Self-Calibrating Speaker Tracking. ITG-Fachberichte, 252: Speech Communication, 11. ITG-Fachtagung Sprachkommunikation 24. – 26. September 2014 in Erlangen,ISBN 978-3-8007-3640-9, 4 Seiten.

F. Jacob, R. Haeb-Umbach

(Siehe online unter https://ieeexplore.ieee.org/abstract/document/6926077)


Geometry Calibration of Distributed Microphone Arrays Exploiting Audio-Visual Correspondences. Proceedings of the 22nd European Signal Processing Conference (EUSIPCO), Lisbon, Portugal, 2014, pp. 116 - 120.

A. Plinge, G. A. Fink

(Siehe online unter https://ieeexplore.ieee.org/document/6952002)


Geometry Calibration of Multiple Microphone Arrays in Highly Reverberant Environments. Acoustic Signal Enhancement (IWAENC), 2014 14th International Workshop on 8-11 Sept. 2014, Antibes – Juan les Pins, France, pp. 243 - 247.

A. Plinge, G. A. Fink

(Siehe online unter http://dx.doi.org/10.1109/IWAENC.2014.6954295)


Multi-Speaker Tracking using Multiple Distributed Microphone Arrays. Acoustics, Speech and Signal Processing (ICASSP), 2014 IEEE International Conference on 4-9 May 2014, Proceedings, pp. 614 - 618.

A. Plinge, G. A. Fink

(Siehe online unter http://dx.doi.org/10.1109/ICASSP.2014.6853669)