Читать книгу Deep Learning illustriert - Jon Krohn - Страница 62
4.5.2AlphaGo Zero
ОглавлениеIm Anschluss an AlphaGo trieben die Leute von DeepMind die ganze Sache noch weiter und schufen einen Go-Spieler der zweiten Generation: AlphaGo Zero. Wie Sie sich erinnern, wurde AlphaGo zunächst auf überwachte Weise trainiert. Das heißt, dass das Netzwerk zunächst mithilfe von expertenhaften menschlichen Spielzügen angelernt wurde. Anschließend spielte es gegen sich selbst und setzte dabei Reinforcement Learning ein. Das ist zwar schon ein ziemlich geschicktes Vorgehen, hat aber noch nicht viel damit zu tun, »Intelligenz zu verstehen«, wie es die DeepMind-Gründer sich vorgestellt hatten. Eine bessere Annäherung an die allgemeine Intelligenz wäre ein Netzwerk, das Go komplett ohne menschliche Vorgaben oder Domänenwissen lernt und sich nur durch Deep Reinforcement Learning verbessert. Hier kommt AlphaGo Zero ins Spiel.
Abb. 4–8Die Elo-Bewertung von AlphaGo (blau) im Verhältnis zu der von Fan Hui (grün) und verschiedenen Go-Programmen (rot). Der ungefähre menschliche Rang wird rechts gezeigt.
Wie wir bereits angedeutet haben, verlangt das Spiel Go die Fähigkeit, vorausschauend große Suchräume zu durchlaufen. Das heißt, es gibt so viele mögliche Spielzüge und nur ein winziger Bruchteil von ihnen sind kurz- und langfristig gesehen gute Züge, sodass die Suche nach dem optimalen Zug, bei dem auch der mögliche künftige Zustand des Spiels berücksichtigt wird, übermäßig komplex und in rechnerischer Hinsicht unpraktisch wird. Aus diesem Grund dachte man, dass Go für die maschinelle Intelligenz eine Art letzter Grenze darstellen würde. Man ging eigentlich sogar davon aus, dass die Errungenschaften von AlphaGo aus dem Jahre 2016 noch ein Jahrzehnt oder mehr entfernt seien.
Mit dem Schwung, den sie aus dem AlphaGo-Sedol-Match zogen, schufen die Forscher bei DeepMind AlphaGo Zero, das das Go-Spiel auf einem deutlich höheren Niveau beherrscht als das ursprüngliche AlphaGo – und außerdem auf verschiedene Arten revolutionär ist:20
Zunächst einmal wird es ohne irgendwelche Daten aus menschlichen Spielen trainiert. Das bedeutet, dass es lediglich durch Ausprobieren (Trial and Error) lernt.
Zweitens verwendet es nur die Steine auf dem Brett als Input. Im Gegensatz dazu hatte AlphaGo 15 ergänzende, von Menschen konstruierte Features erhalten, die dem Algorithmus wichtige Hinweise lieferten, wie etwa die Anzahl der Runden, seit ein Zug gespielt wurde, oder wie viele gegnerische Steine gefangen werden würden.
Drittens wurde statt getrennter Regel- und Bewertungsnetzwerke (siehe den vorhergehenden Kasten; mehr dazu in Kapitel 13) ein einziges (tiefes) neuronales Netzwerk verwendet, um das Brett zu bewerten und über den nächsten Zug zu entscheiden.
Und schließlich ist die Baumsuche einfacher und verlässt sich für die Bewertung von Positionen und möglichen Spielzügen auf das neuronale Netz.
AlphaGo Zero spielte im Laufe von drei Tagen fast fünf Millionen Spiele gegen sich selbst und nahm sich dabei pro Zug etwa 0,4 Sekunden Zeit zum »Nachdenken«. Innerhalb von 36 Stunden hatte es begonnen, das Modell zu übertreffen, das Lee Sedol geschlagen hatte (es war nachträglich in AlphaGo Lee umbenannt worden). Dieses hatte mehrere Monate für sein Training benötigt. Nach 72 Stunden wurde das Modell unter Match-Bedingungen gegen AlphaGo Lee aufgestellt und gewann jedes der 100 Spiele mit Leichtigkeit. Besonders bemerkenswert ist, dass AlphaGo Zero dies auf einer einzigen Maschine mit vier Tensor-Prozessoren21 (Tensor Processing Unit oder TPU) schaffte, während AlphaGo Lee auf mehrere Maschinen verteilt war und 48 TPUs benutzte. (AlphaGo Fan, das Fan Hui geschlagen hatte, war über 176 GPUs verteilt!)
In Abbildung 4–9 ist die Elo-Bewertung für AlphaGo Zero über die Tage seines Trainings zu sehen und wird dort mit den Bewertungen für AlphaGo Master22 und AlphaGo Lee verglichen. Auf der rechten Seite sind die absoluten Elo-Bewertungen für verschiedene Iterationen von AlphaGo und einige andere Go-Programme zu sehen. AlphaGo Zero ist das bei Weitem überlegene Modell.
Eine überraschende Entdeckung bei diesen Forschungen war, dass AlphaGo Zero qualitativ völlig anders spielte als die menschlichen Spieler und (das mithilfe menschlichen Spiels trainierte) AlphaGo Lee. AlphaGo Zero begann mit zufälligem Spielen, lernte aber sehr schnell professionelles Joseki – Ecksequenzen, die als Standardzugfolgen gelten. Nach weiterem Training bevorzugte das gereifte Modell jedoch neue Joseki, die den Menschen zuvor unbekannt waren. AlphaGo Zero lernte spontan ein ganzes Spektrum an klassischen Go-Zügen, was eine pragmatische Anpassung an diese Techniken implizierte. Das Modell schaffte dies jedoch auf ganz originelle Weise: Es erlernte zum Beispiel das Konzept des Shicho (Leiter-Sequenzen) erst sehr viel später in seinem Training, während es für menschliche Spieler zu einem der ersten Spielkonzepte gehört, die sie lernen. Die Autoren trainierten darüber hinaus eine weitere Iteration des Modells mit menschlichen Spieldaten. Dieses überwachte Modell war anfangs besser, unterlag jedoch dem datenfreien Modell bereits nach 24 Stunden Training und erzielte schließlich eine niedrigere Elo-Bewertung. Diese Ergebnisse legen gemeinsam nahe, dass das datenfreie, selbstlernende Modell einen Spielstil hat, der sich deutlich von dem der menschlichen Spieler unterscheidet – einen dominierenden Stil, den das überwachte Modell nicht entwickeln konnte.
Abb. 4–9Ein Vergleich der Elo-Bewertungen zwischen AlphaGo Zero und anderen AlphaGo-Varianten und Go-Programmen. In dem linken Diagramm ist der Vergleich über die Tage des AlphaGo-Zero-Trainings zu sehen.