Читать книгу Deep Learning illustriert - Jon Krohn - Страница 19
1.2.5AlexNet
ОглавлениеWie Sie in Abbildung 1–16 sehen, stammten in den ersten beiden Jahren des ILSVRC alle Algorithmen, die in den Wettbewerb eingereicht wurden, aus dem traditionellen Machine Learning, setzten also auf Feature Engineering. Im dritten Jahr waren alle Teilnehmer mit Ausnahme eines einzigen herkömmliche ML-Algorithmen. Wenn dieses Deep-Learning-Modell im Jahre 2012 nicht entwickelt worden wäre oder wenn seine Schöpfer nicht am ILSVRC teilgenommen hätten, wäre die Exaktheit der von Jahr zu Jahr zu beobachtenden Bildklassifizierung vernachlässigbar gewesen. Stattdessen zerschmetterten Alex Krizhevsky und Ilya Sutskever – beide von der University of Toronto, wo sie unter Leitung von Geoffrey Hinton (Abbildung 1–15) arbeiteten – mit ihrem Beitrag, der heute als AlexNet (Abbildung 1–17) bekannt ist, die vorhandenen Benchmarks.22, 23
Abb. 1–15Der überragende, britisch-kanadische Pionier auf dem Gebiet der künstlichen neuronalen Netze, Geoffrey Hinton, wird in der Presse oft als »Pate des Deep Learning« bezeichnet. Hinton ist emeritierter Professor an der University of Toronto und arbeitet außerdem für Google, wo er das »Brain Team« des Suchmaschinenriesen, eine Forschungsabteilung in Toronto, leitet. 2019 wurden Hinton, Yann LeCun (Abbildung 1–9) und Yoshua Bengio (Abbildung 1–10) gemeinsam für ihre Arbeit auf dem Gebiet des Deep Learning mit dem Turing Award geehrt – der höchsten Auszeichnung in der Informatik.
Dies war ein Wendepunkt. Deep-Learning-Architekturen traten aus dem Schatten des Machine Learning heraus. Akademische und kommerzielle Anwender bemühten sich hastig, die Grundlagen der neuronalen Netze zu verstehen und Softwarebibliotheken herzustellen – von denen viele Open Source sind –, um mit den Deep-Learning-Modellen auf ihren eigenen Daten und Anwendungsfällen zu experimentieren, egal ob diese maschinelles Sehen oder anderes betrafen. In Abbildung 1–16 ist zu erkennen, dass seit 2012 alle Modelle, die im ILSVRC an der Spitze stehen, auf Deep Learning basieren.
Abb. 1–16Leistung der besten Teilnehmer am ILSVRC in den einzelnen Jahren. AlexNet war 2012 der um Längen (um 40%!) bessere Gewinner. Seitdem waren die besten Algorithmen immer Deep-Learning-Modelle. 2015 übertrafen die Maschinen dann die menschliche Genauigkeit.
Auch wenn die hierarchische Architektur von AlexNet an LeNet-5 erinnert, gibt es drei wesentliche Faktoren, die dafür sorgten, dass AlexNet im Jahre 2012 der führende Algorithmus für das maschinelle Sehen wurde. Der erste Faktor waren die Trainingsdaten. Krizhevsky und seine Kollegen hatten nicht nur Zugriff auf die riesige ImageNet-Datenbank, sondern erweiterten die verfügbaren Daten auch noch künstlich, indem sie Transformationen auf die Trainingsbilder anwandten (Sie werden dies in Kapitel 10 ebenfalls tun). Der zweite Faktor ist die Verarbeitungsleistung. Zum einen war die Rechenleistung pro Kosteneinheit zwischen 1998 und 2012 drastisch angestiegen, zum anderen programmierten Krizhevsky, Hinton und Sutskever zwei GPUs24, um ihre großen Datensätze mit bisher nie gesehener Effizienz zu trainieren. Der dritte Faktor waren die Fortschritte in der Architektur. AlexNet ist tiefer (besitzt mehr Schichten) als LeNet-5 und nutzt sowohl einen neuen Typ künstlicher Neuronen25 als auch einen raffinierten Trick26, der dabei hilft, Deep-Learning-Modelle über die Daten hinaus zu verallgemeinern, mit denen sie trainiert wurden. Genau wie LeNet-5 werden Sie Alex-Net in Kapitel 10 selbst bauen und es nutzen, um Bilder zu klassifizieren.
Abb. 1–17Die hierarchische Natur von AlexNet erinnert an LeNet-5. Die erste Schicht (ganz links) repräsentiert einfache visuelle Merkmale wie Kanten, während tiefer gelegene Schichten zunehmend komplexer werdende Merkmale und abstrakte Konzepte darstellen. Am unteren Rand sehen Sie Beispiele für Bilder, auf die die Neuronen in dieser Schicht eine maximale Reaktion zeigen. Dies erinnert an die Schichten des biologischen visuellen Systems aus Abbildung 1–6 und demonstriert die hierarchische Zunahme der visuellen Komplexität. Im hier gezeigten Beispiel wird das Bild einer Katze, das AlexNet präsentiert wurde, korrekt als solche erkannt (wie der grüne Ausgabetext »CAT« impliziert). »CONV« deutet an, dass ein sogenannter Convolutional Layer verwendet wird, »FC« ist eine vollständig verknüpfte Schicht. Wir werden diese Schichttypen in Kapitel 7 bzw. Kapitel 10 einführen.
Unsere ILSVRC-Fallstudie unterstreicht, wieso Deep-Learning-Modelle wie Alex-Net so ungemein nützlich und bahnbrechend in allen Branchen und Computeranwendungen sind: Sie reduzieren ganz drastisch das themenbezogene Fachwissen, das zum Herstellen hochgradig exakter Vorhersagemodelle erforderlich ist. Dieser Trend weg vom fachlich gestützten Feature Engineering und hin zu überraschend leistungsstarken Deep-Learning-Modellen mit automatischer Feature-Generierung wird nicht nur von Vision-Anwendungen getragen, sondern zum Beispiel auch von Computerspielen (sie sind Thema von Kapitel 4) und von der Verarbeitung natürlicher Sprache (Kapitel 2)27. Man muss kein Spezialist für die visuellen Attribute von Gesichtern sein, um einen Gesichtserkennungsalgorithmus herzustellen. Man benötigt kein umfassendes Verständnis mehr für die Strategie eines Spiels, um ein Programm zu schreiben, das es meistern kann. Man muss keine Autorität für die Struktur und Semantik aller betreffenden Sprachen sein, um ein Übersetzungswerkzeug zu schreiben. Für immer mehr Anwendungsfälle ist es wichtiger, Deep-Learning-Techniken anzuwenden, als Kenntnisse auf dem entsprechenden Gebiet zu haben. Während diese Kenntnisse früher wenigstens einen Doktorgrad oder vielleicht jahrelange Forschungen in diesem Bereich erfordert haben, kann ein hinreichendes Niveau auf dem Feld des Deep Learning relativ einfach erreicht werden – etwa, indem man dieses Buch durcharbeitet!