Künstliche Intelligenz: Schlauer Algorithmus lernt das Lippenlesen

Es ist oft ein eher obskurer Anblick: Die deutschen Fußballnationalspieler halten sich beim Gespräch auf dem Platz in vielen Fällen eine Hand vor den Mund. Dies soll verhindern, dass ihnen die Worte von den Lippen abgelesen werden können. Was genau sie dabei wichtiges zu verbergen haben, ist nicht bekannt. Tatsächlich wird die Gefahr eher überschätzt: Auch erfahrene Lippenleser können nur in rund fünfzig Prozent der Fälle das Gesprochene korrekt wieder geben. Noch schwieriger war es bisher für die künstliche Intelligenz – Spracherkennungssoftware arbeitet daher bisher ausschließlich auf Audio-Basis. Doch dies könnte sich in Zukunft ändern. Auf einer Messe in Shanghai wurde nun ein Algorithmus präsentiert, der immerhin jedes vierte Wort korrekt von den Lippen lesen konnte.

Photo by busymonster via flickr, CC by 2.0

Der Algorithmus sucht nach einem tatsächlich existierenden Wort

Die Schwierigkeit besteht dabei darin, dass unser Mund beim Sprechen rund vierzehn verschiedene Formen bildet – damit aber bis zu fünfzig unterschiedliche Töne erzeugt. An der University of East Anglia wurde daher nun ein Computer mit 200 Sätzen von zwölf verschiedenen Personen gefüttert. Anschließend ordnete er dann jeder Mundbewegung die verschiedenen möglichen Laute zu. Auf diese Weise erhält der Algorithmus dann jeweils eine ganze Liste von möglichen Wörtern. Durch entsprechendes Training soll die künstliche Intelligenz letztlich in die Lage versetzt werden, das richtige Wort herauszufiltern – etwa durch den Kontext oder die Anordnung der Laute.

Grundlagenforschung ohne konkretes Ziel zur Anwendung

Bisher erreicht die Maschine damit einen Korrektheitswert von 25 Prozent, was gegenüber früheren Ansätzen ein ziemlich guter Wert ist. Es ist zudem davon auszugehen, dass der Algorithmus durch eine immer breitere Datenbasis im Laufe der Zeit auch schlauer und besser wird. Bisher handelt es sich dabei um eine reine Grundlagenforschung – eine konkrete Anwendungsmöglichkeit wurde nicht benannt. Denkbar wäre aber beispielsweise die Bilder von Überwachungskameras auf diese Weise auszuwerten – was allerdings erhebliche datenschutzrechtliche Probleme mit sich brächte. Weniger problematisch wäre aber beispielsweise die automatische Untertitelung von Filmen un Fernsehsendungen.

Via: Popsci

Teile den Artikel oder unterstütze uns mit einer Spende.