Projektabschluss am Heinz Nixdorf Institut
Die sogenannte Tiefenschätzung dient der dreidimensionalen Wahrnehmung von Szenen in Fotoaufnahmen und spielt in Anwendungsbereichen wie der Robotik oder dem autonomen Fahren eine wichtige Rolle. Seit 2019 haben Wissenschaftler*innen des Heinz Nixdorf Instituts der Universität Paderborn gemeinsam mit dem Forschungszentrum L3S der Leibniz Universität Hannover (Arbeitsgruppe Visual Analytics, Prof. Dr. Ralph Ewerth) an maschinellen Lernmethoden gearbeitet, die diesen Prozess universeller und kostengünstiger gestalten sollen. Nach zwei Jahren Laufzeit des Projekts „Schwach überwachtes Lernen von Tiefenschätzung in monokularen Bildern“, das von der Deutschen Forschungsgemeinschaft (DFG) mit knapp 175.000 Euro gefördert worden ist, kann die Projektgruppe nun auf Ergebnisse für diverse Anwendungsbereiche blicken.
Von der zweiten zur dritten Dimension
Mit einer herkömmlichen Kamera wird die aufgenommene dreidimensionale Welt in eine zweidimensionale Aufnahme umgeformt. Fotografiert man jedoch mit mehreren Linsen oder mit bestimmten Sensoren, die die Tiefe der dargestellten Objekte messen können, lässt sich die dritte Dimension rekonstruieren und so eine dreidimensionale Darstellung erzeugen. Für jedes Pixel wird dabei ein Wert festgelegt, der den Abstand zur Kameralinse misst. Derartige Informationen für einzelne Bilder werden auf einer sogenannten Tiefenkarte gesammelt, deren Erstellung zum Erlernen von vorhersagbaren Modellen allerdings nicht nur zeitaufwändig, sondern durch die Verwendung teurer und energiehungriger Sensoren wie LiDAR vor allem auch sehr kostenintensiv ist. Ein breiter Einsatz in beliebigen Szenerien ist dementsprechend noch nicht umsetzbar.
„Um Methoden zur Tiefenschätzung weiter anwendbar machen zu können, haben wir uns in dem Kooperationsprojekt mit Herangehensweisen beschäftigt, bei denen schwächere Informationen zum Trainieren möglicher Modelle, mit denen Tiefenkarten vorhergesagt werden können, ausreichen. Durch Sensoren, die nur ungefähre Werte produzieren, oder durch synthetische Werte, die künstlich generiert werden, wird der Prozess deutlich kostengünstiger“, erläutert Julian Lienen, wissenschaftlicher Mitarbeiter der ehemaligen Fachgruppe „Intelligente Systeme und Maschinelles Lernen“ am Heinz Nixdorf Institut der Universität Paderborn unter der Leitung von Prof. Dr. Eyke Hüllermeier. Die Verallgemeinerung konventioneller maschineller Lernmethoden und die Konstruktion von synthetischen Trainingsdaten, die die Wissenschaftler*innen im Rahmen ihrer Forschung mit den schwachen Informationen generiert haben, senken die Anforderungen zum Einsatz von Tiefenschätzungsmodellen. So reichen nun Toleranzbereiche oder relative Informationen über die einzelnen Pixel aus, um die jeweilige Tiefe richtig einzuschätzen und hochqualitative Tiefenkarten zu erzeugen. Durch den damit erzielten Kostenvorteil konnte der potenzielle Anwendungsbereich von Methoden zur Tiefenschätzung erweitert werden.
Weichenstellung für dreidimensionale Fotoaufnahmen mit dem Smartphone
Laut Lienen sei es durchaus denkbar, dass selbst Smartphones mit kostengünstigen Kamerasensoren in Zukunft standardmäßig mit einer hochqualitativen Tiefenschätzung ausgestattet werden könnten. Auch für den Bereich Augmented Reality bedeuten die Forschungsergebnisse einen Zugewinn. „Es ist möglich, dass sich die bisher entwickelten Methoden ausweiten und auch auf Videoaufnahmen anwenden lassen. Dadurch lassen sich weitere kostengünstige Datenquellen erschließen, die die Generalisierbarkeit der erlernten Modelle erhöhen können. Gerade im Bereich der Augmented Reality könnten dann computergenerierte Szenen optisch so an die reale Lebenswelt angepasst werden, dass sich kaum ein Unterschied zur Realität festmachen lässt“, zeigt Lienen abschließend auf.