Читать книгу Deep Learning illustriert - Jon Krohn - Страница 35
2.4Google Duplex
ОглавлениеEines der aufsehenerregendsten Beispiele für Deep-Learning-basiertes NLP der letzten Jahre ist die Technik von Google Duplex, die auf der I/O Developers Conference des Unternehmens im Mai 2018 vorgestellt wurde. Der CEO des Suchgiganten, Sundar Pichai, hielt die Zuschauer in seinem Bann, als er demonstrierte, wie der Google Assistant einen Anruf bei einem chinesischen Restaurant tätigte, um eine Reservierung vorzunehmen. Das Publikum reagierte mit hörbarem Erstaunen auf den natürlichen Fluss der Konversation von Duplex. Es hatte die Kadenz der menschlichen Unterhaltung gemeistert, die es mit den ähs und hms spickte, die auch wir in Gespräche einfließen lassen, wenn wir beim Sprechen nachdenken. Darüber hinaus war der Anruf von durchschnittlicher Audioqualität und die Person am anderen Ende hatte einen starken Akzent: Duplex stockte nie und schaffte es, einen Tisch zu reservieren.
Ungeachtet der Tatsache, dass dies eine Demonstration war – die nicht einmal live ablief –, beeindruckte uns das Spektrum der Deep-Learning-Anwendungen, die zusammenkommen mussten, um diese Technik zu ermöglichen. Nehmen Sie nur einmal den Informationsfluss zwischen den beiden Teilnehmern des Anrufs (Duplex und die Person im Restaurant): Duplex benötigt einen hochentwickelten Spracherkennungsalgorithmus, der Audio in Echtzeit verarbeiten und mit einer Vielzahl an Akzenten und Anrufqualitäten am anderen Ende der Leitung zurechtkommen sowie das Hintergrundrauschen bewältigen kann.23
Sobald die Rede des Menschen gewissenhaft transkribiert wurde, muss ein NLP-Modell den Satz verarbeiten und entscheiden, was dieser bedeutet. Die Intention ist, dass die Person am Telefon nicht merkt, dass sie mit einem Computer redet, und daher ihre Sprache nicht entsprechend modulieren muss. Im Gegenzug heißt das aber auch, dass Menschen mit komplexen, mehrteiligen Sätzen antworten, die ein Computer nur schwer auseinandernehmen kann:
»Wir haben morgen nichts, aber wir haben was am nächsten Tag und Donnerstag, jederzeit vor acht. Warten Sie, nein … Donnerstag um sieben geht nicht. Aber wie wäre es nach acht?
Dieser Satz ist schlecht strukturiert – Sie würden so niemals eine E-Mail schreiben –, aber in einem normalen Gespräch kommen diese spontanen Verbesserungen und Ersetzungen ständig vor, und Duplex muss in der Lage sein, dem zu folgen.
Wenn das Audiosignal transkribiert ist und die Bedeutung des Satzes verarbeitet wurde, muss das NLP-Modell von Duplex mit einer Antwort aufwarten. Diese Antwort muss um weitere Informationen bitten, falls der Mensch unklar war oder die Antworten unbefriedigend waren; ansonsten sollte es die Reservierung bestätigen. Das NLP-System generiert eine Antwort in Textform, sodass eine Text-to-Speech-(TTS-)Engine erforderlich ist, um den Ton zu synthetisieren.
Duplex nutzt eine neuartige Wellenformsynthese, die Tacotron24 und WaveNet25 einsetzt, sowie eine eher klassische »verkettende« Text-to-Speech-Engine26. Dies ist die Stelle, an der das System das »unheimliche Tal«27 durchquert: Die Stimme, die der Restaurantbetreiber hört, ist überhaupt keine menschliche Stimme. WaveNet ist in der Lage, sampleweise völlig synthetische Wellenformen zu generieren. Dazu verwendet es ein tiefes neuronales Netzwerk, das mit echten Wellenformen von menschlichen Sprechern trainiert wurde. Unter diesem System bildet Tacotron Sätze aus Wörtern auf entsprechende Sätze aus Audio-Features ab, die die Feinheiten der menschlichen Sprache erfassen, wie etwa Tonhöhe, Geschwindigkeit, Intonation und sogar Aussprache. Diese Features werden dann in WaveNet eingegeben, das die tatsächlichen Wellenformen synthetisiert, die der Restaurantbetreiber hört. Das ganze System schafft es, eine natürlich klingende Stimme mit der korrekten Kadenz, Emotion und Betonung zu produzieren. In mehr oder weniger routinehaften Augenblicken des Gesprächs kommt die verkettende TTS-Engine (bestehend aus Aufnahmen ihrer eigenen »Stimme«), die weniger Rechenleistung verlangt, zum Einsatz. Das gesamte Modell wechselt bei Bedarf dynamisch zwischen den verschiedenen Modellen.
Um einmal Jerry Maguire falsch zu zitieren, Sie hatten all das bei »Hallo«. Das Spracherkennungssystem, die NLP-Modelle und die TTS-Engine arbeiten ab dem Augenblick zusammen, in dem der Anruf angenommen wird. Die Dinge werden von dort an nur noch komplexer für Duplex. Die gesamte Interaktion wird von einem tiefen neuronalen Netz geleitet, das darauf spezialisiert ist, mit Informationen umzugehen, die in einem Satz auftreten.28 Dieser »Chef« verfolgt das Gespräch und leitet die verschiedenen Ein- und Ausgaben in die passenden Modelle.
Aus diesem Überblick sollte klar werden, dass Google Duplex ein raffiniertes und hochentwickeltes System aus Deep-Learning-Modellen ist, die zusammenarbeiten, um eine nahtlose Interaktion am Telefon herzustellen. Im Moment ist Duplex aber trotzdem noch auf sehr spezifische Bereiche beschränkt: das Anberaumen von Terminen und Reservierungen. Das System kann kein allgemeines Gespräch führen. Das heißt, auch wenn Duplex für die künstliche Intelligenz ein deutlicher Schritt nach vorn ist, bleibt immer noch eine Menge zu tun.