Читать книгу Deep Learning illustriert - Jon Krohn - Страница 59
4.4Videospiele
ОглавлениеViele Leser werden sich daran erinnern, wie sie als Kind neue Videospiele gelernt haben. Sie waren vielleicht in einer Spielhalle oder starrten auf den Röhrenfernseher Ihrer Familie und erkannten sehr schnell, dass es kein besonders produktiver Zug war, wenn Sie den Ball in Pong oder Breakout nicht trafen. Sie verarbeiteten die visuellen Informationen auf dem Bildschirm und entwickelten Strategien, um den Controller effektiv zu bedienen. Schließlich war es Ihr Ziel, Ihre Freunde zu übertrumpfen. In den letzten Jahren haben Forscher des Unternehmens Deep-Mind Software hergestellt, die ebenfalls lernt, wie man klassische Atari-Spiele spielt.
DeepMind war ein britisches Startup, 2010 in London gegründet von Demis Hassabis (Abbildung 4–4), Shane Legg und Mustafa Suleyman. Ihr offizielles Ziel bestand darin »Intelligenz zu verstehen« (»solve intelligence«). Das heißt, sie wollten das Feld der KI ausweiten, indem sie zunehmend allgemeiner einsetzbare Lernalgorithmen entwickelten. Einer ihrer frühen Beiträge war die Einführung von Deep Q-Learning Networks (DQN, siehe auch Abbildung 4–1). Über diesen Ansatz konnte eine Architektur aus einem einzigen Modell lernen, mehrere Atari-2600-Spiele zu spielen – und zwar von Grund auf, einfach nur durch Ausprobieren.
2013 veröffentlichten Volodymyr Mnih8 und seine DeepMind-Kollegen einen Artikel9 über ihren DQN-Agenten, einen Deep-Reinforcement-Learning-Ansatz, den Sie ganz genau verstehen lernen, wenn Sie in Kapitel 13 selbst Zeile für Zeile eine Variante davon konstruieren. Ihr Agent empfing rohe Pixelwerte aus seiner Umgebung, einem Videospiel-Emulator10, als Zustandsinformationen. Das ist vergleichbar mit der Art und Weise, wie menschliche Spieler von Atari-Spielen den Fernsehbildschirm sehen. Um die Informationen effizient zu verarbeiten, enthielt das DQN von Mnih und seinen Kollegen ein Convolutional Neural Network (CNN), eine verbreitete Taktik für Deep-Reinforcement-Learning-Modelle, denen visuelle Daten zugeführt werden. (Daher rührt auch die Überschneidung von »Deep RL« und »maschinellem Sehen« in Abbildung 4–1). Der Umgang mit der Flut an visuellem Input aus Atari-Spielen (in diesem Fall etwas mehr als zwei Millionen Pixel pro Sekunde) unterstreicht, wie gut Deep Learning im Allgemeinen dazu geeignet ist, relevante Features aus Rauschen herauszufiltern. Außerdem ist das Spielen von Atari-Spielen in einem Emulator ein Problem, das sich besonders für das Deep-Reinforcement-Learning anbietet: Es gibt eine Vielzahl an möglichen Aktionen, deren Meisterung eine gewisse Herausforderung darstellt, aber dankenswerterweise gibt es praktisch auch unendlich viele Trainingsdaten, da der Agent einfach immer weiter spielen kann.
Abb. 4–4Demis Hassabis war 2010 einer der Mitgründer von DeepMind, nachdem er seinen PhD in kognitiver Neurowissenschaft am University College London erworben hatte.
Während des Trainings wurden dem DeepMind-DQN keine Hinweise oder Strategien vorgegeben; es erhielt nur den Zustand (die Bildschirmpixel), die Belohnung (seinen Punktestand, den es maximieren soll) und den Umfang der möglichen Aktionen (Spiel-Controller-Buttons), die in einem bestimmten Atari-Spiel zur Verfügung stehen. Das Modell wurde nicht extra an spezielle Spiele angepasst, und dennoch war es in der Lage, vorhandene Machine-Learning-Ansätze in sechs von sieben Spielen zu übertreffen, die Mnih und seine Kollegen mit ihm getestet haben. In drei dieser Spiele war es sogar besser als erfahrene menschliche Spieler. Möglicherweise beeinflusst durch diesen eindeutigen Fortschritt, erwarb Google DeepMind im Jahre 2014 für den Gegenwert von etwa einer halben Milliarde US-Dollar.
In einem Folgeartikel in der angesehenen Zeitschrift Nature bewerteten Mnih und seine Kollegen, die nun bei Google DeepMind arbeiteten, ihren DQN-Algorithmus anhand von 49 Atari-Spielen.11 Die Ergebnisse sind in Abbildung 4–6 zu sehen: Er übertraf Machine-Learning-Ansätze in allen Spielen bis auf drei (also in 94% von ihnen) und war erstaunlicherweise bei der Mehrzahl (59%) auch besser als menschliche Spieler.12