Dam­it Ro­boter erkennen, was sie visuell er­fassen

KI-Forscher Enrico Motta spricht bei Vortragsreihe zur Ko-Konstruktion

„Roboter, die in der realen Welt eingesetzt werden, benötigen eine ausgefeilte visuelle Intelligenz, um sich in der Fülle der Situationen zurechtzufinden, denen sie begegnen können.“ Das sagt der Informatiker Prof. Dr. Enrico Motta vom Knowledge Media Institute (KMi) der Open University in Großbritannien. Die dominierenden Deep-Learning-Methoden reichen dafür nicht aus. Wie sich visuelle Intelligenz durch Kombination mit anderen Komponenten der Künstlichen Intelligenz verbessern kann, erläutert Motta am kommenden Donnerstag, 23. März, ab 16 Uhr in der Reihe „Co-Constructing Intelligence“ (Ko-Konstruktion von Intelligenz), einem Angebot der Universitäten Bielefeld, Bremen und Paderborn.

„Ein visuell intelligenter Roboter muss mindestens in der Lage sein, den Inhalt seiner Beobachtungen zu erkennen“, sagt Enrico Motta. Die Objekterkennung erfolgt typischerweise mit Methoden des Deep Learning (DL). Sie stellen den De-facto-Standard für verschiedene Aufgaben der Künstlichen Intelligenz dar, darunter Bild- und Spracherkennung.

Aktuelle Technologie auf große Datenmengen angewiesen
 

„Doch trotz der großen Erfolge bei diesen und anderen Leistungsvergleichen schneiden DL-Architekturen aus kognitiver Sicht im Vergleich zu menschlichen Fähigkeiten immer noch schlecht ab, sowohl in Bezug auf die Effizienz als auch auf die Erkenntnisgewinnung“, sagt Enrico Motta. Mit Blick auf Effizienz seien DL-Methoden bekanntermaßen sehr datenhungrig, während Menschen in der Lage seien, selbst aus einem einzigen Beispiel zu lernen und zu verallgemeinern.

Hinzu kommt: Aus erkenntnistheoretischer Sicht haben Menschen den Maschinen voraus, dass sie das Gesehene verstehen können, obwohl ein Objekt typische Eigenschaften vermissen lässt. „Aus erkenntnistheoretischer Sicht besteht ein Schlüsselaspekt des menschlichen Lernens darin, dass es weit über die Mustererkennung hinausgeht. Menschen lernen Konzepte – nicht nur Muster. Sie können daher Beispiele dieser Konzepte erkennen, selbst wenn wichtige Merkmale fehlen“, so Motta. Das gelte zum Beispiel für ein Auto, von dem alle Räder abmontiert wurden oder die Darstellung eines rosa Elefanten in einem Tutu. Diese Fähigkeit vermeide die „Brüchigkeit“, die für DL-Methoden wie auch für andere Arten von KI-Systemen typisch ist.

Schwächen von Deep Learning mit zusätzlichen Technologien ausgleichen
 

Um Roboter mit visueller Intelligenz auszustatten, arbeiten Enrico Motta und sein Team an hybriden Computerarchitekturen, die DL-Methoden mit anderen KI-Komponenten kombinieren. In seinem Vortrag stellt Motta seine aktuelle Forschung dazu vor. „Wir haben eine hybride Architektur entwickelt – sie ergänzt einen Deep-Learning-Ansatz mit einer Vielzahl von Komponenten zum logischen Denken aus der Kognitionswissenschaft, um eine neue Klasse von visuell intelligenten Robotern zu entwickeln.“

„Enrico Motta gehört zu den international führenden Wissenschaftler*innen zu Wissensrepräsentation und -management und semantischen Technologien“, sagt Prof. Dr. Philipp Cimiano, Leiter der Arbeitsgruppe Semantische Datenbanken an der Universität Bielefeld, der den Vortrag mit organisiert. „Seine Forschung liefert weitreichende Impulse dazu, wie Roboter und andere KI-Systeme Beobachtungen semantisch interpretieren können, indem sie sich nicht nur auf die beobachteten Merkmale, sondern auch auf ihr Hintergrundwissen verlassen. Dadurch können Roboter besser generalisieren und von konkreten Situationen und Beobachtungen abstrahieren, um besser ihr Wissen auf unbekannte Situationen zu übertragen.“

Prof. Dr. Enrico Motta ist Professor für Wissenstechnologien an der Open University mit Sitz in Milton Keynes, Großbritannien. Dort leitet er die Forschungsgruppe Intelligente Systeme und Datenwissenschaft am Knowledge Media Institute (KMI), dessen Direktor er von 2002 bis 2007 war. Er hat außerdem eine Professur am Fachbereich Informationswissenschaft und Medienwissenschaft der Universität Bergen in Norwegen. In seiner Forschung beschäftigt er sich mit der Integration und Modellierung großer Datenmengen, semantischen und sprachlichen Technologien, intelligenten Systemen und Robotik sowie Mensch-Maschine-Interaktion.

Vortragsreihe dazu, wie die Umwelt gemeinsam interpretiert wird
 

Der Vortrag trägt den Titel „A Hybrid Approach to Enabling Visual Intelligence in Robots“. Er ist Teil der Vortragsreihe „Co-Constructing Intelligence“. Für die Reihe kooperieren die Universitäten Bielefeld, Bremen und Paderborn. Philipp Cimiano organisiert die neue Vortragsreihe unter anderem mit der Bielefelder Informatikerin Prof. Dr.-Ing. Britta Wrede, dem Bremer Informatiker Prof. Dr. Michael Beetz und der Paderborner Linguistin Prof. Dr. Katharina Rohlfing. Die Vortragsreihe ist ein Angebot einer gemeinsamen Forschungsinitiative der drei Universitäten. Der Zusammenschluss nutzt das Prinzip der Ko-Konstruktion, um das Verständnis und die Fähigkeiten von Robotern an die von Menschen anzupassen. Die Forschenden arbeiten so an der Basis für eine flexible und sinnhafte Interaktion von Robotern mit Menschen im Alltag. Der Begriff Ko-Konstruktion bezieht sich darauf, dass die Interpretation der Umwelt und die Ausführung von Handlungen in Zusammenarbeit erfolgen.

Weitere Informationen:
 

Kontakt:

Prof. Dr. Philipp Cimiano, Universität Bielefeld

Technische Fakultät

Telefon: 0521 106-12249

E-Mail: cimiano(at)techfak.uni-bielefeld(dot)de

Foto (Aneta Tumilowicz): Der KI-Forscher Prof. Dr. Enrico Motta von der britischen Open University erläutert in seinem Vortrag, was nötig ist, um Roboter mit visueller Intelligenz auszustatten.