Zukunft der Illusionen: Menschen können Stimmen-Deepfakes kaum erkennen

Das Zeitalter der künstlichen Intelligenz ist angebrochen, es greift auf zahlreiche Bereiche der digitalen Welt über. Auch vor menschlichen Stimmen machen die Algorithmen nicht halt, sie erzeugen authentische Sprach-Deepfakes, die kaum vom Original unterscheidbar sind. Eine Studie zeigt, dass Probanden bereits bei einer älteren KI aufs Glatteis geraten. Wie sähe derselbe Versuch mit modernen Algorithmen aus?

Spricht hier ein Mensch oder ein Computer?

Vorheriges Üben machte keinen Unterschied

Die Entwicklung schreitet steil voran, was gestern noch Stand der Technik war, ist im KI-Bereich heute schon überholt. Die Studie am University College London, die Kimberly Mai mit 529 Teilnehmern durchführte, hat schon einige Monate auf dem Buckel, gerade deshalb ist sie ein guter Wegweiser, wohin die Reise geht. Einige Probanden durften vor dem eigentlichen Versuch trainieren und sich fünf KI-generierte Sprachaufnahmen anhören – andere nicht. Im Ergebnis spielte das keine Rolle, bei der Unterscheidung waren sie alle gleich schlecht.

Die Forscher erzeugten per Algorithmus Sprachaufnahmen, gespeist aus öffentlichen Datensätzen. Sie entschieden sich dafür, Beispiele in Englisch und Mandarin vorzuführen, um herauszufinden, ob es je nach Sprachmelodie Unterschiede in der Erkennungsquote gibt. Die Studienteilnehmer mussten die jeweilige Sprache fließend beherrschen, denn hier ging es um Feinheiten. Schlussendlich war es jedoch egal, welche Sprache zum Einsatz kam, die Testpersonen waren durch die Bank gleich schlecht.

Probanden zeigten große Unsicherheiten

Sie erkannten die Deepfakes in nur 73 Prozent der Fälle und ordneten ein Drittel der authentischen Stimmaufnahmen einer KI zu. Das heißt, die Probanden waren derart voreingenommen, dass auch ein Teil der identifizierten Fakes wahrscheinlich auf ihre erhöhte Alarmbereitschaft zurückzuführen ist. Im realen Leben und mit weiterentwickelten Algorithmen sind noch schlechtere Quoten zu erwarten.

Die Forscher schließen daraus, dass es Zeit wird, zuverlässige digitale KI-Detektoren zu entwickeln, um Sprachfälschungen zielgerichtet zu entlarven. Auf dem Spiel steht unsere Möglichkeit, demnächst noch unterscheiden zu können, ob eine echte, vielleicht sogar vertraute Person mit uns redet, oder nicht. Fälschungen öffnen den schlimmsten Betrügereien Tor und Tür.