Читать книгу Deep Learning illustriert - Jon Krohn - Страница 57

4.2.3Reinforcement Learning

Оглавление

Kommen wir wieder zurück auf Abbildung 4–1. Wir sind nun bereit, uns Problemen des Reinforcement Learning zuzuwenden, die sich deutlich von den Supervised- und Unsupervised-Varianten unterscheiden. Wie in Abbildung 4–3 so leichthin illustriert wird, sind Reinforcement-Learning-Probleme solche, bei denen wir einen Agenten haben, der in einer Umgebung eine Reihe von Aktionen unternimmt. Der Agent könnte zum Beispiel ein Mensch oder ein Algorithmus sein, der ein Atari-Videospiel spielt oder ein Auto fährt. Die vielleicht wichtigste Abweichung des Reinforcement Learning vom Supervised bzw. Unsupervised Learning besteht darin, dass die Aktionen, die der Agent ausführt, die Informationen beeinflussen, die die Umgebung dem Agenten anbietet – das heißt, der Agent erhält eine direkte Rückmeldung über die Aktionen, die er unternimmt. Bei Supervised- oder Unsupervised-Problemen beeinflusst das Modell im Gegensatz dazu niemals die zugrunde liegenden Daten; es nimmt sie einfach auf.


Leute, die das Deep Learning studieren, verspüren häufig den unwiderstehlichen Drang, die Paradigmen Supervised, Unsupervised und Reinforcement Learning in die Ansätze traditionelles Machine Learning versus Deep Learning zu unterteilen. Genauer gesagt, wollen sie das Supervised Learning mit dem traditionellen Machine Learning verknüpfen und das Unsupervised Learning oder das Reinforcement Learning (oder beides) mit dem Deep Learning. Damit das klar ist: Es gibt keine solche Verbindung! Beide Techniken – sowohl traditionelles Machine Learning als auch Deep Learning – lassen sich auf Probleme des Supervised, Unsupervised und Reinforcement Learning anwenden.

Abb. 4–3Die Reinforcement-Learning-Schleife. Das linke Diagramm (a) ist eine verallgemeinerte Version. Die rechte Darstellung (b) bezieht sich auf das im Text angeführte Beispiel eines Agenten, der auf einer Atari-Konsole ein Videospiel spielt. Unseres Wissens nach können Trilobiten eigentlich keine Videospiele spielen; der Trilobit dient uns hier als symbolische Repräsentation des Reinforcement-Learning-Agenten, bei dem es sich entweder um einen Menschen oder um eine Maschine handeln könnte.

Tauchen wir mithilfe einiger Beispiele ein bisschen tiefer in die Beziehung zwischen einem Reinforcement-Learning-Agenten und seiner Umgebung ein. In Abbildung 4–3 wird der Agent durch einen vermenschlichten Trilobiten repräsentiert, doch dieser Agent könnte entweder ein Mensch oder eine Maschine sein. Wenn der Agent ein Atari-Videospiel spielt,

 könnten die möglichen Aktionen, die ausgeführt werden, das Drücken der Buttons am Videospiel-Controller sein.4

 Die Umgebung (die Atari-Konsole) liefert Informationen zurück an den Agenten. Diese Informationen gibt es in zwei zarten Geschmacksrichtungen: State bzw. Zustand (die Pixel auf dem Bildschirm, die den aktuellen Zustand der Umgebung repräsentieren) sowie Reward bzw. Belohnung (der Punktestand im Spiel, den der Agent gern durch das Spielen maximieren möchte).

 Falls der Agent Pac-Man spielt, dann liefert die Umgebung, sobald der Agent den »Hoch«-Button drückt (Aktion), einen aktualisierten Zustand zurück, bei dem die Pixel die Videospiel-Figur auf dem Bildschirm repräsentieren, die sich nach oben bewegt hat. Vor dem Spielen eines dieser Spiele wüsste ein typischer Reinforcement-Learning-Algorithmus gar nichts von dieser einfachen Beziehung zwischen dem »Hoch«-Button und der Bewegung von Pac-Man nach oben – alles wird von Grund auf durch Ausprobieren gelernt.

 Wählt der Agent eine Aktion aus, durch die Pac-Man den Weg wählt, auf dem einige köstliche Kirschen liegen, dann liefert die Umgebung eine positive Belohnung zurück: eine Erhöhung des Punktestandes. Wählt der Agent dagegen eine Aktion, durch die Pac-Man einem gruseligen Geist in die Quere kommt, liefert die Umgebung eine negative Belohnung zurück: Die Punktezahl wird verringert.

In einem zweiten Beispiel fährt der Agent ein Auto:

 Die verfügbaren Aktionen sind viel umfassender und vielfältiger als bei Pac-Man. Der Agent kann die Lenksäule, das Gaspedal und die Bremsen in unterschiedlichem Maße betätigen: ganz subtil, besonders heftig oder irgendetwas dazwischen.

 Die Umgebung ist in diesem Fall die wirkliche Welt, die aus Straßen, Verkehr, Fußgängern, Bäumen, Himmel und so weiter besteht. Der Zustand entspricht hier dem Zustand der Umgebung des Fahrzeugs, wie sie die Augen und Ohren eines menschlichen Agenten bzw. die Kamera und der Lidar5 (auch: Ladar) eines autonomen Fahrzeugs wahrnehmen.

 Die Belohnung könnte im Falle eines Algorithmus positiv programmiert sein für jeden Meter, der in Richtung auf ein Ziel zurückgelegt wird. Ein bisschen negativ wäre sie bei kleineren Verkehrsverstößen und ganz besonders negativ, falls es zu einem Zusammenstoß kommt.

Deep Learning illustriert

Подняться наверх