Читать книгу Deep Learning illustriert - Jon Krohn - Страница 58
4.3Deep Reinforcement Learning
ОглавлениеEndlich sind wir beim Abschnitt Deep Reinforcement Learning (Deep RL) in der Mitte des Venn-Diagramms aus Abbildung 4–1 angekommen. Ein Reinforcement-Learning-Algorithmus verdient das Präfix »deep« (tief), wenn ein künstliches neuronales Netzwerk daran beteiligt ist, um zu lernen, welche Aktionen bei einem bestimmten Zustand der Umgebung nötig sind, um mit hoher Wahrscheinlichkeit eine positive Belohnung6 zu erhalten. Wie Sie in den Beispielen des nächsten Abschnitts sehen werden, hat sich die Verbrüderung von Deep Learning und Reinforcement Learning als fruchtbar erwiesen. Dies hat folgende Gründe:
Tiefe neuronale Netze sind besonders gut beim Verarbeiten der komplexen sensorischen Eingaben, die von echten Umgebungen oder fortgeschrittenen simulierten Umgebungen bereitgestellt werden, um relevante Signale aus einer Kakophonie hereinströmender Daten zu extrahieren. Dies entspricht der Funktionalität der biologischen Neuronen des visuellen und auditorischen Kortex Ihres Gehirns, die ihren Input von den Augen bzw. Ohren erhalten.
Reinforcement-Learning-Algorithmen wiederum eignen sich besonders gut für das Auswählen einer passenden Aktion aus einem breiten Angebot an Möglichkeiten.
Zusammen bilden Deep Learning und Reinforcement Learning eine machtvolle Kombination zum Lösen von Problemen. Zunehmend komplexer werdende Probleme erfordern meist zunehmend größere Datensätze, damit die Agenten für das Deep Reinforcement Learning sowohl große Mengen an Rauschen als auch große Mengen an Zufälligkeiten durchlaufen und damit ein effektives Regelwerk entdecken können, das ihnen verrät, welche Aktionen sie unter bestimmten Umständen unternehmen sollten. Da viele Reinforcement-Learning-Probleme in einer simulierten Umgebung stattfinden, ist es oft kein Problem, eine ausreichende Menge an Daten zu erwerben: Der Agent kann einfach mit weiteren Simulationsrunden trainiert werden.
Obwohl die theoretischen Grundlagen für das Deep Reinforcement Learning schon einige Jahrzehnte lang existieren,7 hat es in den letzten Jahren durch drei Faktoren deutlichen Aufwind erhalten – wie das normale Deep Learning durch AlexNet (Abbildung 1–17):
1 exponentiell größere Datensätze und viel reichere simulierte Umgebungen
2 paralleles Computing bei vielen GPUs (Graphics Processing Units; Grafikprozessoren) zur effizienten Modellierung mit größeren Datensätzen sowie ein erhöhter Umfang der möglichen Zustände und Aktionen
3 ein Forschungsklima, das die Brücke zwischen dem akademischen und dem industriellen Bereich schlägt und einen sich schnell entwickelnden Korpus an neuen Ideen zu tiefen neuronalen Netzwerken im Allgemeinen sowie zu Deep-Reinforcement-Learning-Algorithmen im Besonderen produziert, um zum Beispiel optimale Aktionen zu identifizieren, auch wenn es eine Vielzahl von »verrauschten« Zuständen gibt