»Äh … ähm … nuschel …«: KI versteht unklare Sprache besser als Menschen

Abbrüche mitten im Satz, Gestammel, Stottern und Nuscheln: Die Transkription eines spontanes Gespräch ist eine Mammutaufgabe. Oft sind Wörter oder ganze Satzteile unverständlich, die Sätze sind gespickt mit Verzögerungslauten. Jetzt haben Forscher am Karlsruher Institut für Technologie (KIT) eine künstliche Intelligenz entwickelt, die unklare Sprache besser versteht als der Mensch. Sie nimmt seit einiger Zeit an Vorlesungen teil und fertigt Live-Mitschriften an. Und das nicht nur in Deutsch.

Spontane Sprache ist nicht immer gut zu verstehen

Fehlerquote liegt 0,5 Prozentpunkte unter der des Menschen

Die Berechnungszeit der Spracherkennungs-Software liegt bei 1,75 Sekunden. Mit dieser Geschwindigkeit erreicht sie eine Fehlerrate von niedrigen 5,0 Prozent beim Switchboard-Benchmark in englischer Sprache. Die Fehlerquote von Menschen liegt in diesem Benchmark durchschnittlich etwas höher, nämlich bei 5,5 Prozent. Es handelt sich um einen Standardtest für die Spracherkennung, der auf 2500 Gesprächen in 500 verschiedenen Sprachen basiert. Sogar die bekannten Systeme von IBM, Microsoft und Google erzielen hier deutlich schlechtere Werte als die Karlsruher KI.

Forscher beschäftigen sich seit 8 Jahren mit unklarer Sprache

Der Spracherkenner gehört zum Lecture Translator, einem automatischen Übersetzungssystem, das schon seit acht Jahren die Vorlesungen in Karlsruhe begleitet. In dieser Zeit widmeten sich die Forscher intensiv den Schwierigkeiten spontaner, unklarer Sprache und konnten offensichtlich viele Probleme lösen. Dazu nutzten sie unter anderem neuronale Netze, die in Encoder-Decoder-Architektur angelegt sind. Andere Techniken gesellen sich hinzu, die teilweise in Konkurrenz zu diesem Ansatz stehen. »Unsere Stärken liegen in der Grundlagentechnik«, äußert sich Dr. Sebastian Stüker als Experte für Spracherkennung. »Zudem haben wir im Training neuronaler Netze die Minimierung der Verlustfunktion modifiziert und so die Latenz verringert«.

Die Berechnungszeit der Software ist flexibel einstellbar. Lässt man ihr mehr Zeit, dann senkt sich die Fehlerrate noch weiter, sodass menschliche Zuhörer keine Chance mehr haben. Die deutsche Spracherkennung befindet sich im Training, hier liegt noch kein ähnlich anerkannter Benchmark vor wie in der englischen Variante.