Читать книгу Künstliche Intelligenz und Empathie. Vom Leben mit Emotionserkennung, Sexrobotern & Co - Catrin Misselhorn - Страница 11
Gesichtsbasierte Emotionserkennung
ОглавлениеEine Inspirationsquelle der automatischen Emotionserkennung bildet das Gesichtsbewegungskodierungssystem (engl. Facial Action Coding System, FACS), das Paul Ekman seit den 1970er Jahren in Zusammenarbeit mit Wallace Friesen für die zwischenmenschliche Emotionserkennung entwickelt hat.9 Das System ordnet jeder sichtbaren Bewegung der mimischen Muskulatur eine Bewegungseinheit (engl. Action Unit, AU) zu, die eine einzelne Muskelbewegung beschreibt oder mehrere zusammenfasst.
Auf diese Art und Weise lassen sich Gesichtsausdrücke klassifizieren und als Code darstellen. Die verschiedenen Typen basaler Emotionen werden anhand bestimmter Kombinationen der Bewegungseinheiten charakterisiert, die zu dem für sie typischen Gesichtsausdruck führen. Furcht etwa lässt sich durch Zusammenziehen der Augenbrauen (AU 4), Heben des oberen Augenlids (AU 5), Anspannen des unteren Augenlids (AU 7) sowie Aufeinanderpressen der Lippen (AU 23) beschreiben. Freude umfasst das Anheben der Wangen (AU 6) und der Mundwinkel (AU 12). Die Intensität einer Bewegung kann zusätzlich auf einer fünf Stufen umfassenden Skala ausgedrückt werden. Das System lässt sich durch die Hinzunahme von Kopf- und Augenbewegungen sowie typischen Verhaltensmustern erweitern.
Besonders große Resonanz erfuhr FACS, weil sich mit Hilfe der Mikromimik (kurze, schnelle Gesichtsbewegungen, die nur Sekundenbruchteile andauern) erkennen lässt, welche Emotion jemand tatsächlich hat, auch wenn die Person dies verbergen möchte. Zwar ist nicht jeder spontan in der Lage, solche Mikroausdrücke zu erkennen. Diese Fähigkeit lässt sich jedoch nach Ekman gut trainieren. Er arbeitet mit dem Auslandsgeheimdienst (CIA), dem Verteidigungsministerium und dem nach den Terroranschlägen vom 11. September 2001 gegründeten Heimatschutzministerium (Department of Homeland Security) der USA zusammen. Die Mitarbeiter dieser Einrichtungen sollen darin geschult werden, potentielle Terroristen anhand ihrer Mikromimik zu enttarnen. Dieses Beispiel verdeutlicht den großen Reiz, den automatisierte gesichtsbasierte Emotionserkennung ausübt: Sie soll es den Nutzern – seien es staatliche oder kommerzielle Akteure – erlauben, die wahren Emotionen einer Person zu erkennen, ohne auf deren Selbstinterpretation angewiesen zu sein.
Künstliche Systeme müssen jedoch nicht in Anlehnung an Ekmans Gesichtsbewegungskodierungssystem programmiert werden. Es ist auch möglich, sie mit Hilfe von ›Big Data‹ darauf zu trainieren, Gesichtsausdrücke als Muster in Datensätzen zu erkennen. Beide Verfahrensweisen lassen sich auch miteinander kombinieren. Die Datengrundlage besteht aus Live-Aufnahmen von Kameras, Videoaufzeichnungen, Standbildern aus Videos oder Fotos. So nutzen Firmen etwa die Profilbilder auf Datingplattformen oder Fotos menschlicher Gesichter auf Flickr. Auch wenn die Nutzer der Verwendung im Rahmen einer Creative-Commons-Lizenz zugestimmt haben, ist dies im Hinblick auf den Datenschutz nicht unproblematisch, da keine Vereinbarung mit den Firmen selbst über diese Nutzung vorlag.
Die gesichtsbasierte Emotionserkennung geht in drei Schritten vor: Zunächst erfolgt die Gesichtserkennung, dann die Merkmalsextraktion und danach die Klassifikation der Emotion. Bei der Merkmalsextraktion können etwa die geometrischen Merkmale wie die Abstände zwischen wichtigen Gesichtspunkten oder die Geschwindigkeitsvektoren dieser Punkte verwendet werden, wenn sich der Gesichtsausdruck verändert. Ein anderes Verfahren nutzt Änderungen der Bildtextur, die sich aus der Verformung des neutralen Gesichtsausdrucks ergeben (beispielsweise Ausbuchtungen und Falten im Gesicht).
Doch wie zuverlässig sind künstliche Systeme bei der gesichtsbasierten Emotionserkennung? Ekman vertritt die Auffassung, dass trainierte Menschen diese Aufgabe besser bewältigen als Algorithmen. Zur Unterstützung könne jedoch auf die automatisierte gesichtsbasierte Emotionserkennung durch künstliche Systeme zurückgegriffen werden. Einige Forscherteams behaupten jedoch, bereits Systeme entwickelt zu haben, die Menschen in der Erkennung von Mikroausdrücken überlegen seien.10 Allerdings hängt die Zuverlässigkeit künstlicher Systeme bei der gesichtsbasierten Emotionserkennung stark davon ab, dass Laborbedingungen herrschen: Die Bilder müssen frontal aufgenommen und sehr scharf sein und dürfen keine verdeckten Gesichtsteile enthalten. Unter Bedingungen des echten Lebens schneiden künstliche Systeme entsprechend schlechter ab.
Die automatisierte gesichtsbasierte Emotionserkennung ist jedoch noch aus anderen Gründen umstritten. Ein Kritikpunkt lautet, dass sie den Kontext vollkommen ausblendet. Es ist fraglich, ob Gesichtsausdrücke notwendig oder hinreichend sind, um Emotionen zu erkennen. Das lässt sich anhand des Kuleshov-Effekts veranschaulichen: Lev Kuleshov war ein sowjetischer Filmemacher, der bereits zu Beginn des 20. Jahrhunderts anhand eines Kurzfilms die Kontextabhängigkeit der Emotionszuschreibung belegen wollte. In der Filmsequenz wird die Einstellung ein und desselben Männergesichts mit verschiedenen anderen Bildern abgewechselt (einem Suppenteller, einem aufgebahrten toten Mädchen und einer leichtbekleideten Frau auf einem Diwan). Diese Objekte wurden vom Publikum als Auslöser unterschiedlicher Emotionen verstanden. Je nachdem, welches Bild gezeigt wurde, interpretierten die Betrachter den Ausdruck des Gesichts als Hunger, Trauer oder sexuelles Verlangen.
Neuere Studien haben versucht, diesen Effekt mit den Mitteln der modernen empirischen Psychologie zu bestätigen.11 Ein Algorithmus hätte in diesem Fall wohl einen neutralen Gesichtsausdruck festgestellt. Kommt er der Sache näher als die menschliche Praxis der Emotionszuschreibung, die kontextuelle Faktoren berücksichtigt? Oder verhält es sich genau umgekehrt und muss ein künstliches System an der Emotionserkennung scheitern, weil es den Kontext nicht miteinbezieht?
Neben dem Bezugsobjekt könnte auch der soziale und kulturelle Kontext bei der Zuschreibung von Emotionen eine Rolle spielen. So besitzt ein Lächeln in der japanischen Kultur eine andere Bedeutung als in den USA oder in Europa. Für Ekman überformen kulturelle Regeln des Emotionsausdrucks lediglich die weitgehend biologisch angelegten basalen Emotionen, die sich trotzdem in Form von Mikroausdrücken ihren expressiven Weg bahnen. Emotionen sind für ihn »undichte Stellen«, an denen das ansonsten private Innenleben einer Person unfreiwillig nach außen dringt. Doch selbst wenn man ihm diesen Punkt zugesteht, sind zumindest die nicht-basalen Emotionen stark vom kulturellen Kontext abhängig, so dass die gesichtsbasierte Emotionserkennung nur einen eingeschränkten Einsatzbereich besitzt.
Problematisch ist weiterhin, dass die gesichtsbasierte Emotionserkennung rassistischen Vorurteilen unterliegt. So wurden schwarzen Basketballspielern von einschlägigen Algorithmen selbst dann deutlich mehr negative Emotionen wie Ärger oder Verachtung zugeschrieben, wenn sie lächelten.12 Eine technische Lösung für den Umgang mit solchen Vorurteilen bestünde in einer entsprechenden Erweiterung der Datenbasis sowie der Auswahl menschlicher Annotatoren, die die Zuordnung von Gesichtsausdrücken und Emotionen in den Trainingsdaten unter Diversitätsgesichtspunkten vornehmen. Manche Firmen werben deshalb mit einer diversifizierten Datenbank.
Die grundsätzliche Frage ist, ob eine rein technische Lösung befriedigen kann oder ob nicht immer gewisse Personengruppen ausgeschlossen sein werden. So sperrte Uber aufgrund von Fehlern bei der Gesichtserkennung die Accounts von Transgender-Fahrern.13