Читать книгу Künstliche Intelligenz und Empathie. Vom Leben mit Emotionserkennung, Sexrobotern & Co - Catrin Misselhorn - Страница 12
Stimmbasierte Emotionserkennung
ОглавлениеNeben dem Gesicht kann auch der stimmliche Ausdruck zur Emotionserkennung genutzt werden. Im Vordergrund stehen hierbei nicht die Wortbedeutungen, sondern die akustischen und prosodischen Eigenschaften des Sprechens. Bereits in den 1970er und 80er Jahren gab es stimmbasierte Stresstests, die in sehr kurzen Sprachauszügen ein winziges Beben (engl. micro-tremor) mit einer Bandbreite von 8–14 Hz als unbeabsichtigtes Anzeichen psychischen Stresses erkennen sollten.14
Im Unterschied zur gesichtsbasierten Emotionserkennung verwendet die stimmbasierte Emotionserkennung zumeist ein dimensionales Ordnungssystem. Emotionen werden nicht einem bestimmten Typus zugeordnet, sondern anhand graduierbarer Merkmale in einem Koordinatensystem verortet. Zwei Hauptdimensionen einer solchen Einteilung bilden die Valenz (positiv – negativ) und der Erregungsgrad. Diese beiden Dimensionen lassen sich als orthogonale Achsen darstellen, um deren Schnittpunkt die Emotionen kreisförmig angeordnet sind.15 Jede Emotion wird durch einen bestimmten Vektor aus Valenz und Erregung dargestellt. Das Modell kann um weitere Dimensionen wie Dominanz ergänzt werden. Diese Dimension gibt an, wie viel Kontrolle oder Macht jemand in einer Situation ausübt.
Die stimmbasierte Analyse bezieht sich in erster Linie auf die Erregungsachse. Die Parameter lassen sich jedoch genauer ausdifferenzieren, etwa in Bezug auf Lautstärke, Tonhöhe oder Sprechgeschwindigkeit. So weist Ärger ein Muster mit gesteigerter Lautstärke und Tonhöhe auf, während bei Furcht die Tonhöhe und die Sprechgeschwindigkeit höher sind. Auch die Anzahl der Pausen sowie die Häufigkeit von Überschneidungen, die entstehen, wenn eine Person einer anderen ins Wort fällt, werden berücksichtigt.
Ein Anwendungsfeld der stimmbasierten Emotionsanalyse sind Call-Center. Dort sollen die Stimmen von Kunden und Call-Center-Mitarbeitern analysiert werden, um herauszufinden, wann eine Situation aus dem Ruder läuft. Mitarbeiter werden anhand solcher Aufnahmen gezielt darauf trainiert, anhand bestimmter Strategien mit diesen Situationen umzugehen und die Kunden zu einem erwünschten Verhalten zu bringen. Auch für Amazons persönlichen Assistenten Alexa gibt es seit 2019 eine stimmbasierte Emotionserkennungssoftware, die die Dimensionen Valenz, Erregung und Dominanz miteinander kombiniert.16 Ein künstliches neuronales Netz wurde hierfür mit Hilfe öffentlich zugänglicher Daten trainiert.
Einige Firmen haben Apps entwickelt, um an die entsprechenden Daten zu kommen. Eine der ersten war das Programm Moodies des israelischen Start-ups Beyond Verbal (später fusioniert zu Vocalis Health). Die für Apple- und Android-Geräte verfügbare App bringt Menschen dazu, die stimmbasierte Emotionserkennung spielerisch auszuprobieren. Dabei generieren sie Daten, um das System zu trainieren. Das Programm soll für über 25 Sprachen funktionieren, darunter Mandarin, Kantonesisch sowie Vietnamesisch. In der Coronakrise arbeitete Vocalis Health daran, anhand von Stimmanalyse Hinweise auf eine Infektion mit Covid-19 zu gewinnen.
Stimmbasierte Emotionserkennung wird zudem als Mittel für die Zuschreibung bestimmter Persönlichkeitsmerkmale eingesetzt. Die Produkte von Beyond Verbal beispielsweise sollten in der Lage sein, die Sprecher einem Persönlichkeitstyp zuzuordnen, der auf recht undurchsichtige und spekulative Art und Weise aus drei fundamentalen unbewussten Trieben und diversen neurophysiologischen Prozessen abgeleitet wurde.17 Die drei Grundtypen wurden S-, H-, und G-Typ genannt. Während der S-Typ (engl. survivalist) sich latent bedroht fühlt und stets bereit ist, auf eine existentielle Bedrohung zu reagieren, ist der H-Typ (engl. homeostatist) vorwiegend an Routine und der Aufrechterhaltung des Status quo orientiert, während der G-Typ (engl. growth) an allem Möglichen interessiert ist und sich durch ein Streben nach persönlichem Wachstum auszeichnet.
Solche Zuschreibungen sollen etwa in Bewerbungsgesprächen eingesetzt werden. Und es ist klar, welcher Typus das Rennen machen würde. Auch die klassischen Big Five aus der Persönlichkeitspsychologie wurden (unter anderem gefördert von der deutschen Telekom) bereits im Zusammenhang mit der stimmbasierten Emotionsanalyse untersucht.18 Es handelt sich um die Charakterzüge: Offenheit für Erfahrungen, Gewissenhaftigkeit, Aufgeschlossenheit (Extroversion), Sozialverträglichkeit sowie emotionale Labilität und Verletzlichkeit (Neurotizismus).
Fast noch mehr als von gesichtsbasierten Verfahren verspricht man sich von der stimmbasierten Emotionserkennung einen unmittelbaren Zugang zu zentralen Aspekten des Innenlebens und der Persönlichkeit, der nicht der bewussten Kontrolle unterliegt. Allerdings bleiben auch im Hinblick auf die Zuverlässigkeit dieser Methode viele Fragen offen, etwa nach kulturell oder sprachlich bedingten Unterschieden oder dem Umgang mit Verstellung, Ironie oder Sarkasmus.