Wie Computer Sprachen lernen

Zur Kommunikation zwischen zwei oder mehreren Individuen gibt es grundsätzlich zwei Optionen: die nonverbale und die verbale. Erstere stützt sich auf Gestik und Mimik, während letztere über Sprache funktioniert, ganz gleich ob geschrieben oder gesprochen. Die verbale Kommunikation ist nicht nur wesentlich nuancierter und genauer, sondern auch um ein Vielfaches komplexer als die nonverbale Variante. Das ist eine Herausforderung, der sich Entwickler von Spracherkennungssoftware stellen müssen.

Theorie

Verbale Kommunikation funktioniert nur, wenn der eine Gesprächspartner den anderen auch verstehen kann. Jemand, der nicht lesen kann, kann einem Schriftstück keine Informationen entnehmen. Eine Konversation in gesprochener Sprache funktioniert nur, wenn alle Beteiligten dieselbe Sprache sprechen und sie auf einem ähnlichen Level beherrschen.

Für die Kommunikation zwischen Mensch und Computer gelten dieselben Regeln, zumindest wenn es darum geht, dass Nutzer und Software möglichst natürlich auf verbaler Ebene miteinander interagieren sollen. Das ist die Kernfunktion von Sprachassistenten wie Apples Siri oder Microsofts Cortana, ebenso wie die von Chatbots, die in Zukunft Apps und Websites überflüssig machen könnten. Das Stichwort lautet Natural Language Processing.

Damit Computer verbale Inputs verstehen, bedienen sich die Entwickler entsprechender Programme. Die Software analysiert dabei die Eingaben des Nutzers anhand derselben Strategien, die Menschen zum Verstehen von Sprache anwenden. Von der Zusammensetzung einzelner Wörter (Morphologie) über deren Bedeutung (Semantik) und die Regeln des Satzbaus (Syntax) bis hin zum Kontext, in dem Äußerungen getroffen werden (Pragmatik), müssen die Programme sämtliche Bereiche der Sprachwissenschaft beherrschen. Geht es um die Verarbeitung gesprochener Sprache, kommt noch das Feld der Phonetik und Phonologie hinzu.

…und Praxis

In der Praxis funktioniert das bisher mit unterschiedlichem Erfolg. Zwar vermeldete Microsoft jüngst, dass ein Programm zur akustischen Spracherkennung im Test ähnlich genau wie ein professioneller Transkriptionist arbeitete, allerdings unter Laborbedingungen.

Wer sich aber im Alltag schon einmal mit Cortana oder Siri beschäftigt hat, der kennt die Limitierungen der für Endnutzer erhältlichen Sprachassistenten zur Genüge. Oft verstehen die elektronischen Helferlein Anfragen falsch oder gar nicht. Das hat manchmal ganz banale Gründe, zum Beispiel verstehen die Programme Nutzer oft nicht, deren Sprache dialektbehaftet ist. Amazon peilt mit seiner Spracherkennungssoftware Alexa das ehrgeizige Ziel an, dieser „sprachlichen Diskriminierung“ ein Ende zu bereiten.

Googles Assistant, der Nutzern der seit kurzem erhältlichen hauseigenen Pixel-Smartphones zur Verfügung steht, ist bereits mit einer Dialekterkennung ausgestattet und greift für die Problemlösung natürlich auf Googles mächtige Suchmaschineninfrastruktur zurück. Dieser Ansatz führt zu im Vergleich mit der Konkurrenz oft besseren Matches für Useranfragen.

Bis man aber mit Computern und Smartphones auf dem gleichen Level kommunizieren kann wie mit einem anderen Menschen, wird noch einige Zeit vergehen. Wirklich schlimm ist das eigentlich nicht, schließlich hat auch die Interaktion mit Artgenossen genügend positive Seiten, solange man sich versteht.