Читать книгу Deep Learning illustriert - Jon Krohn - Страница 67

4.7.2DeepMind Lab

Оглавление

DeepMind Lab35 ist eine weitere RL-Umgebung. Sie stammt von den Entwicklern bei Google DeepMind. (Diese weisen allerdings darauf hin, dass DeepMind Lab kein offizielles Google-Produkt ist.) Wie Abbildung 4–14 zeigt, setzt die Umgebung auf der Quake III Arena36 von id Software auf und bietet eine Science-Fiction-inspirierte dreidimensionale Welt, in der Agenten auf Entdeckungsreise gehen können. Der Agent erlebt die Umgebung aus der Ich-Perspektive, was sich deutlich von den Atari-Emulatoren unterscheidet, die über OpenAI Gym verfügbar sind.

Es gibt eine Vielzahl an Levels, die sich grob in vier Kategorien einteilen lassen:

1 Obstsammler-Level, auf denen der Agent einfach versucht, Preise (Äpfel und Melonen) zu finden, während er gleichzeitig die Strafen (Zitronen) vermeidet.

2 Navigations-Level mit einer statischen Karte, bei denen der Agent beauftragt wird, ein Ziel zu finden und sich an das Layout der Karte zu erinnern. Der Agent kann am Anfang einer Episode zufällig auf die Karte gesetzt werden, während das Ziel stationär bleibt. Dieses Arrangement testet eine anfängliche Erkundungsphase, gefolgt von einem Rückgriff auf das Gedächtnis, um wiederholt das Ziel zu finden. Es ist aber auch möglich, den Agenten an derselben Stelle zu starten, während das Ziel für jede Episode bewegt wird, womit die Fähigkeit des Agenten zur Erkundung getestet wird.

3 Navigations-Level mit zufälligen Karten, bei denen der Agent in jeder Episode eine neue Karte erkunden, das Ziel finden und dann innerhalb eines Zeit-Limits so oft wie möglich zum Ziel zurückkehren soll.

4 Laser-Tag-Level, bei denen der Agent für das Jagen und Angreifen von Bots in einer Reihe unterschiedlicher Szenen belohnt wird.

Die Installation von DeepMind Lab ist nicht ganz so einfach wie die von OpenAI Gym37, aber es bietet eine reichhaltige, dynamische, in der Ich-Perspektive gehaltene Umgebung zum Trainieren der Agenten. Die Level liefern komplexe Szenarien, in denen Navigation, Erinnerungsvermögen, Strategie, Planung und feinmotorische Fähigkeiten getestet werden können. Diese anspruchsvollen Umgebungen erlauben es, an die Grenzen dessen zu gehen, was mit modernem Deep Reinforcement Learning möglich ist.

Abb. 4–13Eine Auswahl der OpenAI-Gym-Umgebungen: (a) Cart-Pole, also ein inverses Pendel, das ein klassisches Problem der Regelungstechnik darstellt, (b) LunarLander, eine Aufgabe in einer zweidimensionalen Simulation, die eine durchgehende Steuerung erfordert, (c) Skiing, ein Atari-2600-Spiel, (d) Humanoid, eine dreidimensionale Simulation einer zweifüßigen Person mithilfe der MuJuCo-Physik-Engine, (e) FetchPickandPlace, eine von mehreren verfügbaren Simulationen eines echten Roboterarms, in diesem Fall eines mit dem Namen »Fetch«, der das Ziel hat, einen Klotz zu fassen und an einem Zielort abzulegen, und (f) HandManipulateBlock, eine weitere praktische Simulation eines Roboterarms, der »Shadow Dexterous Hand«.

Abb. 4–14 Eine DeepMind-Lab-Umgebung, in der Pluspunkte für das Einfangen der leckeren grünen Äpfel vergeben werden

Deep Learning illustriert

Подняться наверх