WaveNet: Neue Google KI spricht wie ein Mensch

Googles Abteilung für künstliche Intelligenz, DeepMind, hat im Rahmen von Weiterentwicklungen einen Weg gefunden die Maschinen-Sprachausgabe menschlicher klingen zu lassen. WaveNet nennt sich die neue Methode, die Maschinen sogar zu Musik-Komponisten avancieren lassen kann.

Google WaveNet ist ganz dicht an der menschlichen Sprache dran

Chat-Bots und persönliche Sprachassistenten haben eine rosige Zukunft und werden unseren Alltag schon bald regelmäßig mit begleiten. Google arbeitet bereits seit geraumer Zeit schon an der Entwicklung künstlicher Intelligenz und ist dabei auch schon recht weit mit vorn. Wir erinnern uns an die Erfolge beim Schach- und GO-Spiel. Jüngst wurde auch noch Poker angegangen. In Zukunft können Sprachassistenten weniger wie Roboter und viel mehr wie Menschen klingen. Googles neue Methode erzeugt die KI-Sprache aus rohen Audiosignalen. Das neue neuronale Netzwerk WaveNet erstellt pro Sekunde 16.000 Samples. Hier lernt die Maschine allerdings mit jedem produziertem Signal auch wieder dazu. Vereinfacht dargestellt kann festgehalten werden, dass WaveNet Aufnahmen menschlicher Stimmen nutzt, um diese in der Folge nachzubilden. Gleichzeitigt lernt die KI dazu und nutzt die gewonnenen Erkenntnisse und Erfahrungen für die Prognosen der nächsten Sprachausgabe. Wie die Google Forscher betonen ist die neue Methode durchaus rechenaufwendiger, allerdings liefert diese die natürlichsten Ergebnisse.

Bisher wird bei der Sprachausgabe von Sprachassistenten wie etwa Apples Siri oder Microsofts Cortana mit gesprochenen Textbausteinen gearbeitet. Die künstliche Intelligenz formt diese dann für die Wiedergabe zu Sätzen. Ein Vorgang wird als konkatenatives Text-to-Speech-Verfahren (TTS) bezeichnet eine andere noch unnatürlicher klingende Methode wird parametrische TTS genannt.

WaveNet ist auch in der Lage verschiedene Sprecheridentitäten annehmen zu können. Die Forscher erklären, dass das Sprachergebnis umso besser ist, je mehr Sprecher kennengelernt werden. Das wirkt sich am Ende dann auch für die einzelne Identität positiv aus. Ein weiterer Mehrwert der Technologie ist, dass WaveNet auch Samples von Klavierstücken beispielsweise erstellen kann. Schließlich basiert die Methode ja auf einzelnen Audiosignalen. Google hält im ausführlichen Forschungsbeitrag fest, dass WaveNet auf Englisch schon sehr nahe an die natürliche Aussprache herankommt. Nach Tests der englischen und chinesischen Sprachausgabe, sollten Menschen die Qualität beurteilen. Das geschah anhand einer Skala von 1-5. Die menschliche Sprache erhielt den Wert 4,55, während WaveNet auf 4,21 kam und damit um die Hälfte besser ist als bisherige künstliche Sprachausgaben. Das DeepMind-Entwicklerteam ist von dem Ergebnis überwältigt und spricht von einer neuen Errungenschaft. Schon jetzt galten Googles TTS-Methoden als weltweit führend.

Es wird wohl nicht mehr lange dauern, bis Googles Sprachassistentin das WaveNet-Update verliehen bekommt. Einen ersten Eindruck von der natürlichen künstlichen Sprache liefert der DeepMind-Blog.