Für Menschen nicht hörbar: Forscher verstecken geheime Befehle in Alexa und Co

In beliebigen Tondokumenten können akustische Geheimbotschaften stecken, die Spracherkennungssysteme wie Kaldi verstehen, für Menschen aber unhörbar sind. Kaldi ist, wie die Forscher an der Ruhr-Universität Bochum (RUB) vermuten, Bestandteil zahlreicher Sprachassistenten wie Alexa von Amazon. Wer sich einen Jux machen will oder kriminelle Energie besitzt, könnte diese Möglichkeit benutzen, die Sprachassistenten aufzufordern, bestimmte Produkte zu bestellen, was den Besitzer teuer zu stehen kommen kann. „Wir könnten eine Audiodatei, etwa einen Song, der im Radio abgespielt wird, so manipulieren, dass sie den Befehl enthält, ein bestimmtes Produkt einzukaufen“, so Professor Thorsten Holz vom Horst-Görtz-Institut für IT-Sicherheit an der RUB.

Versteckte Botschaft im Vogelgezwitscher

Die Forscher zeigten, dass sie beliebige Befehle in unterschiedlichen Audiosignalen, etwa in Sprache, Vogelgezwitscher oder Musik, verstecken können und dass Kaldi diese versteht. Die erstaunlichen, vielleicht sogar erschreckenden Ergebnisse veröffentlichte die Gruppe um Holz, Lea Schönherr, Professor Dorothea Kolossa und Steffen Zeiler jetzt im Internet.

Angriffe auf Spracherkennungssysteme im Video

Mit dem Laden des Videos akzeptieren Sie die Datenschutzerklärung von YouTube.
Mehr erfahren

Video laden

YouTube immer entsperren

Die Manipulation orientiert sich am MP3-Format, mit dem Audiodaten komprimiert werden, indem nicht hörbare Bereiche ausgeblendet werden. „Wenn das Gehör damit beschäftigt ist, einen lauten Ton einer bestimmten Frequenz zu verarbeiten, können wir für einige Millisekunden auf dieser Frequenz andere, leisere Töne nicht mehr wahrnehmen“, erklärt Kolossa. Die hinzugefügten Komponenten klingen für den Menschen wie zufälliges Rauschen, das im Gesamtsignal nicht oder kaum auffällt. Für die Maschine ändert es jedoch den Sinn. Während der Mensch Aussage A hört, versteht die Maschine die versteckte Aussage B. Die Berechnungen, um zehn Sekunden einer Audiodatei mit versteckten Informationen zu versehen, dauern weniger als zwei Minuten, so die RUB-Forscher.

Forschung soll Sprachassistenten schützen

Ziel ist es nicht, die Erkenntnisse zu Schabernack oder Schlimmerem zu benutzen. Die Forscher wollen die Sprachassistenten besser gegen Angriffe abschirmen. Einen wirksamen Schutz gebe es derzeit noch nicht.
Bisher versteht Kaldi die versteckten Botschaften nur, wenn sie direkt eingespeist werden. Kommen sie aus dem Lautsprecher bleiben sie wirkungslos. Es dauere aber nicht mehr lange, bis auch der Luftweg funktioniert, also die Befehlsübertragung per Lautsprecher. „Durch die Hintergrundgeräusche wird der Angriff nicht mehr ganz so effizient sein“, vermutet Schönherr. „Aber wir gehen davon aus, dass es immer noch funktioniert.“