Dieser Roboter denkt mit: Wie KI die Objektsuche effizienter macht

Wer einen Schlüssel, eine Brille oder ein anderes Alltagsobjekt verlegt, verlässt sich bislang auf Erinnerung, Zufall oder langwieriges Suchen. An der Technischen Universität München ist nun ein Roboter entstanden, der solche Aufgaben deutlich systematischer angeht. Er kombiniert dafür eine dreidimensionale Karte seiner Umgebung mit dem Wissen eines Sprachmodells. Das Ziel ist nicht bloß, Gegenstände zu erkennen, sondern auch einzuschätzen, an welchen Orten sie mit hoher Wahrscheinlichkeit zu finden sind. Damit rückt eine Form von Robotik näher, die Räume nicht nur sieht, sondern in einem praktischen Sinn versteht.

Bild: Learning Systems and Robotics Lab/ TU München

Wenn der Raum Bedeutung bekommt

Der Prototyp wirkt äußerlich vergleichsweise unspektakulär: eine mobile Plattform mit Kamera, grob gesagt ein fahrbarer Stab mit Sensorik. Entscheidend ist ohnehin nicht die Hülle, sondern die Art, wie der Roboter Informationen verarbeitet. Seine Kamera erfasst die Umgebung nicht nur als flaches Bild, sondern mit Tiefendaten, aus denen ein zentimetergenaues 3D-Modell des Raums entsteht. Gleichzeitig analysiert ein angeschlossener Rechner, welche Objekte sich im Sichtfeld befinden und welche Rolle sie für menschliche Handlungen typischerweise spielen. So entsteht aus einer Küche nicht einfach eine Ansammlung von Flächen und Formen, sondern ein Raum mit funktionalen Orten.

Warum eine Brille eher auf dem Tisch liegt als im Spülbecken

Genau hier kommt das Sprachmodell ins Spiel. Es liefert dem System gewissermaßen Alltagswissen: Eine Brille wird eher auf einem Tisch, einer Fensterbank oder einer Arbeitsfläche abgelegt als auf einer Herdplatte oder im Spülbecken. Prof. Angela Schoellig beschreibt das wie folgt: „Wir haben dem Roboter beigebracht, die Umgebung zu verstehen.“ Anstatt jeden Bereich gleich wahrscheinlich abzusuchen, versieht das System seine Umgebungskarte mit Wahrscheinlichkeiten. Der Roboter fährt dann zuerst jene Stellen an, an denen der gesuchte Gegenstand besonders plausibel ist. Nach Angaben der Forscher:innen gelingt die Suche dadurch fast 30 Prozent effizienter als bei einer zufälligen Durchmusterung des Raums.

Mit dem Laden des Videos akzeptieren Sie die Datenschutzerklärung von YouTube.
Mehr erfahren

Video laden

YouTube immer entsperren

Von der Objektsuche zur alltagstauglichen Robotik

Hinzu kommt eine weitere Fähigkeit, die für wechselnde Umgebungen wichtig ist: Der Roboter speichert frühere Ansichten und vergleicht sie mit aktuellen Bildern. Taucht irgendwo ein neuer Gegenstand auf, erkennt er diese Veränderung laut TUM mit hoher Zuverlässigkeit von rund 95 Prozent. Solche neu erkannten Bereiche markiert das System als besonders relevant für die Suche. Das macht deutlich, dass es nicht nur um einen technischen Trick für verlegte Brillen geht. Die zugrunde liegende Idee ist breiter angelegt und könnte für Roboter in Wohnungen, Pflegeeinrichtungen oder anderen dynamischen Innenräumen bedeutsam werden. Der nächste Schritt besteht bereits darin, auch hinter Türen oder in Schubladen zu suchen. Dann müsste der Roboter nicht nur schlussfolgern, sondern auch aktiv mit seiner Umgebung interagieren, also etwa Griffe erkennen und Schränke gezielt öffnen. Prof. Schoellig formuliert den Kern des Ansatzes so: „Das Sprachmodell spielt die Beziehungen zwischen den Objekten ein und wir wandeln diese Informationen in die Sprache des Roboters um.“ Genau darin liegt die eigentliche Neuerung: Maschinen verknüpfen Wahrnehmung und Weltwissen zunehmend so, dass aus Sehen allmählich Verstehen wird.

via TU München

Teile den Artikel oder unterstütze uns mit einer Spende.