Читать книгу Kognitive Psychologie - Tilo Strobach - Страница 25
2.3.1 Marrs algorithmischer Ansatz
ОглавлениеEin genereller Erklärungsversuch auf die Frage nach der Entstehung ansichtsunabhängiger, visueller Repräsentationen aufgrund der Wahrnehmung komplexer, dreidimensionaler Objekte ist die Annahme, dass zunächst ein dreidimensionales, ansichtsunabhängiges Modell des Objekts konstruiert wird. Dieses Modell wird dann mit Gedächtnisrepräsentationen verglichen, die ebenfalls in ansichtsunabhängiger Form abgelegt sind. Die entscheidende Frage ist allerdings: Wie entstehen dreidimensionale, ansichtsunabhängige Objektmodelle?
David Marrs theoretischer Ansatz zur Objekterkennung ist eingebunden in seinen algorithmischen Ansatz (Marr, 1982). In diesem Ansatz beginnt die Objekterkennung mit dem Erstellen einer zweidimensionalen Repräsentation des retinalen Bildes durch Merkmalsextraktion in einer so genannten Primärskizze. In dieser Skizze werden Hell-Dunkel-Verteilungen und Konturen von Objekten (d. h. Figuren) repräsentiert. Diese Konturen werden verwendet, um Kanten und Oberflächen und somit Grenzen zwischen den Objekten und dem Hintergrund abzuleiten. Das Gruppieren von Konturen findet nach den Prinzipien statt, die wir bereits im Kontext der Gestaltpsychologie gesehen haben. Aus der Primärskizze wird dann in einem weiteren Schritt eine Repräsentation entwickelt, in der die Objekte in einer Szene durch Hinzufügen von Tiefeninformationen mit ihren Orientierungen und Entfernungen vom Betrachter aus kodiert sind. Diese Repräsentation wird als 2 ½-D-Skizze bezeichnet und ist eine ansichtsabhängige Repräsentation einer betrachteten Szenerie. Repräsentationen der betrachteten Szenerie würden sich auf dieser Stufe der Verarbeitung jedes Mal ändern, wenn sich die räumlichen Positionen von Objekt und Betrachter zueinander verändern. Erst die sogenannte 3D-Modell-Repräsentation, die aus der 2 ½-D-Skizze erstellt wird, erlaubt eine ansichtsunabhängige Repräsentation eines betrachteten Objekts. In dieser Repräsentation werden Objekte als strukturelle Liste elementarer, dreidimensionaler Komponenten repräsentiert, in der die räumliche Anordnung der Einzelkomponenten zueinander spezifiziert ist. Diese elementaren Teilkomponenten kennzeichnen sich dadurch, dass ihre Hauptachse ansichtsunabhängig und somit von verschiedenen Blickwinkeln relativ leicht zu bestimmen ist.
Abbildung 2.7 zeigt den Versuch, den Informationsfluss der visuellen Wahrnehmung im Kontext von Marrs algorithmischem Ansatz schematisch zu illustrieren ( Abb. 2.7). Die Wahrnehmung beginnt mit dem Extrahieren von Lichtenergie aus der Umgebung auf der Retina. Aus den extrahierten visuellen »Rohinformationen« im Retina-Abbild werden wiederum einzelne Merkmale extrahiert und eine Primärskizze erstellt. Diese Merkmale werden mit Tiefeninformationen kombiniert. Aus dieser Kombination kann ein Betrachter die Lage und Orientierung von Objekten im Raum und somit die 2 ½-D-Skizze erstellen. Mit der Erstellung von ansichtsunabhängigen Teilkomponenten ergibt sich ein 3D-Modell. Schließlich wird dieses 3D-Modell mit Gedächtnisrepräsentationen abgeglichen, das führt zum Erkennen von Objekten. Das Ergebnis dieser Stufe ist uns in der Wahrnehmung zugänglich. Dieses Schema der Objekterkennung macht deutlich, dass eine umfassende Informationsverarbeitung notwendig ist, bevor uns wahrgenommene Objekte zugänglich sind.
Wir haben gesehen, dass dem Erkennen von komplexen dreidimensionalen Objekten eine umfassende Informationsverarbeitung mit verschiedenen Verarbeitungsstufen vorausgeht. Charakteristisch für diese Verarbeitung ist, dass Objekte nicht als Ganzes erkannt werden, sondern auf einer bestimmten Stufe der Verarbeitung in Teilkomponenten zerlegt werden (z. B. wird die 3D-Modell-Repräsentation in Teilkomponenten zerlegt). Diese Zerlegung in Teilkomponenten ist bereits bei Modellen zum Erkennen von einfachen, zweidimensionalen Objekten, wie Zahlen, Symbolen oder Buchstaben zu finden. Nach dem Modell der Merkmalsanalyse werden Objekte als Kombination elementarer Merkmale angesehen. Im Fall des Alphabets können Buchstaben aus horizontalen, vertikalen, schrägen und gekrümmten Linien kombiniert werden.
Abb. 2.7: Informationsfluss von der Aufnahme visueller Informationen im Retinaabbild bis zur Erkennung komplexer dreidimensionaler Objekte nach Marr und Nishihara (1978)
Zum Beispiel kann man den Großbuchstaben A aus zwei schrägen Linien (/ \) und einer horizontalen Linie (-) kombinieren. Befunde aus Verhaltensexperimenten zeigen, dass Merkmale als Komponenten bei der Mustererkennung fungieren. So werden zum Beispiel in einer Studie von Kinney, Marsetta und Showman (1966) systematische Falscherkennungen sichtbar, wenn der Buchstabe G erkannt werden soll: Wird dieser Buchstabe nur sehr kurzfristig dargeboten, klassifizieren Probanden den Buchstaben G häufig falsch. Von diesen Falschklassifikationen wurden 72,4 % als C und 20,7 % als O kategorisiert. Das zeigt, dass ein überwiegender, systematischer Teil der Falscherkennungen sehr ähnliche Buchstaben mit ähnlichen Merkmalen war. Ein solches Ergebnismuster ist zu erwarten, wenn der Erkennungsprozess von Objekten nach der Merkmalsanalyse verläuft. Es ist keine zuverlässige Unterscheidung bei Buchstaben mit ähnlichen Merkmalen möglich, wenn bei kurzen Darbietungen nicht alle Merkmale extrahiert werden können.