Читать книгу Deep Learning illustriert - Jon Krohn - Страница 64
4.6Manipulation von Objekten
ОглавлениеBisher haben wir uns in diesem Kapitel vor allem mit den Spielanwendungen des Deep Reinforcement Learning befasst. Nun sind Spiele zwar ein gutes Testfeld für das Erforschen der Verallgemeinerung von Maschinenintelligenz, jedoch wollen wir uns in diesem Abschnitt einmal den praktischen, echten Anwendungen des Deep Reinforcement Learning zuwenden.
Ein Beispiel aus dem wirklichen Leben, das wir bereits erwähnt haben, sind autonome Fahrzeuge. Als weiteres Beispiel bieten wir hier einen Überblick über die Forschung von Sergey Levine, Chelsea Finn (Abbildung 4–11) und ihren Kollegen an der University of California in Berkeley.30 Diese Forscher trainierten einen Roboter in einer Reihe motorischer Fähigkeiten, die ein komplexes visuelles Verständnis und Tiefenwahrnehmung erfordern. Beispiele sind das Zuschrauben eines Flaschendeckels, das Entfernen eines Nagels mit einem Spielzeughammer, das Aufhängen eines Kleiderbügels an einem Kleiderständer und das Einsetzen eines Würfels in einem Formenspiel (Abbildung 4–12).
Der Algorithmus von Levine, Finn und ihren Kollegen bildet die visuellen Rohdaten direkt auf die Bewegungen der Motoren in dem Roboterarm ab. Ihr Regelnetzwerk war ein sieben Schichten tiefes Convolutional Neural Network (CNN) aus weniger als 100.000 künstlichen Neuronen – in Bezug auf das Deep Learning eine wirklich winzige Zahl, wie Sie sehen werden, wenn Sie später in diesem Buch lernen, Netze zu trainieren, die um Größenordnungen mächtiger sind. Es ist zwar im Moment nicht ganz einfach, genauer auf diesen Ansatz einzugehen, da Sie noch nicht besonders viel über die Theorie hinter künstlichen neuronalen Netzen gelernt haben (dazu kommen wir in Teil II). Aber auf drei Punkte dieser eleganten praktischen Anwendung des Deep Reinforcement Learning möchten wir doch schon einmal hinweisen:
Dies ist ein »Ende-zu-Ende«-Deep-Learning-Modell. Das bedeutet, dass das Modell Rohbilder (Pixel) als Eingaben nimmt und diese direkt auf die Motoren des Roboters ausgibt.
Das Modell generalisiert ganz sauber auf ein breites Spektrum an einzigartigen Aufgaben zur Manipulation von Objekten.
Es ist ein Beispiel für die Policy-Gradient-Familie der Deep-Reinforcement-Learning-Ansätze. Damit haben wir dann auch den letzten der Begriffe aus unserem Venn-Diagramm aus Abbildung 4–1 abgearbeitet. Policy-Gradient-Methoden unterscheiden sich vom DQN-Ansatz, der das Thema von Kapitel 13 bildet, aber dort werden wir auch ihnen wieder begegnen.
Abb. 4–11Chelsea Finn ist Doktorandin am AI Research Lab der University of California in Berkeley.
Abb. 4–12 Beispielbilder aus »Levine, Finn, et al. (2016)«, die verschiedene Objektmanipulationen zeigen, für die der Roboter trainiert wurde