Читать книгу Deep Learning illustriert - Jon Krohn - Страница 38

3.1Eine feuchtfröhliche Nacht

Оглавление

Unter den Google-Büros in Montreal gibt es eine Bar namens »Les 3 Brasseurs«, zu Deutsch also »Die 3 Brauer«. Dort dachte sich Ian Goodfellow, der damals, im Jahre 2014, als PhD-Student in Yoshua Bengios renommiertem Labor (Abbildung 1–10) arbeitete, einen Algorithmus zum Herstellen realistisch aussehender Bilder aus3 – eine Technik, die Yann LeCun (Abbildung 1–9) als »wichtigsten« aktuellen Durchbruch auf dem Gebiet des Deep Learning bejubelte.4

Goodfellows Freunde beschrieben ihm ein generatives Modell, an dem sie arbeiteten, das heißt, ein Computermodell, das darauf abzielt, etwas Neues zu erschaffen, sei es ein Zitat im Stil von Shakespeare, eine Melodie oder ein abstraktes Kunstwerk. In ihrem speziellen Fall versuchten die Freunde, ein Modell zu entwerfen, das fotorealistische Bilder generieren konnte, wie etwa Porträts menschlicher Gesichter. Damit dies mit dem traditionellen Machine-Learning-Ansatz einigermaßen gut funktioniert (Abbildung 1–12), müssten die Ingenieure, die das Modell entwarfen, nicht nur die entscheidenden Merkmale von Gesichtern katalogisieren und approximieren, wie Augen, Nasen und Münder, sondern auch exakt abschätzen, wie diese Merkmale relativ zueinander angeordnet werden müssten. Bislang waren die Ergebnisse wenig beeindruckend. Die generierten Gesichter waren entweder sehr unscharf oder ihnen fehlten wichtige Elemente wie die Nase oder die Ohren.

Goodfellow, dessen Kreativität möglicherweise durch das eine oder andere Bier angeregt wurde,5 hatte eine revolutionäre Idee: ein Deep-Learning-Modell, in dem zwei künstliche neuronale Netze (Artificial Neural Network, ANN) quasi im Wettstreit gegeneinander antreten. Wie in Abbildung 3–1 dargestellt wird, würde eines dieser ANN darauf programmiert werden, Fälschungen herzustellen, während das andere so programmiert würde, dass es als Detektiv agiert und die Fälschungen von den echten Bildern unterscheidet (diese würden separat angeboten werden). Diese gegnerischen Deep-Learning-Netze würden einander anstacheln: Wenn der Generator beim Herstellen der Fälschungen besser wird, muss der Diskriminator besser dabei werden, sie zu identifizieren, und so müsste der Generator noch überzeugendere Nachahmungen produzieren und so weiter. Dieser wunderbare Trainingszyklus würde schließlich zu überwältigenden neuen Bildern im Stil der echten Trainingsbilder führen, ob nun von Gesichtern oder anderen Dingen. Und das Beste an der ganzen Sache wäre, dass Goodfellows Ansatz uns der Notwendigkeit entheben würde, manuell Features in das generative Modell zu programmieren. Wie wir schon im Zusammenhang mit dem maschinellen Sehen (Kapitel 1) und der Verarbeitung natürlicher Sprache (Kapitel 2) ausgeführt haben, kümmert sich das Deep Learning automatisch um die Features der Modelle.

Abb. 3–1Schematische Darstellung eines Generative Adversarial Network (GAN). Dem Diskriminator werden sowohl echte Bilder als auch Nachahmungen vorgelegt. Er hat die Aufgabe, die echten Bilder zu identifizieren. Die orange Wolke repräsentiert die Orientierungshilfe durch den latenten Raum (Abbildung 3–4), die dem Fälscher angeboten wird. Diese Lenkung kann entweder zufällig sein (wie das beim Netzwerktraining im Allgemeinen der Fall ist; siehe Kapitel 12) oder kann selektiv (während einer Erkundung nach dem Training; siehe Abbildung 3–3) erfolgen.

Abb. 3–2 Ergebnisse aus dem GAN-Artikel von Goodfellow und seinen Kollegen aus dem Jahre 2014

Goodfellows Freunde bezweifelten, dass sein fantasievolles Vorgehen funktionieren würde. Als er nach Hause kam und seine Freundin schlafend vorfand, arbeitete er bis in die Nacht daran, seinen Entwurf mit den zwei ANN umzusetzen. Das Ganze funktionierte beim ersten Versuch, und die erstaunliche Familie der Generative Adversarial Networks war geboren!

Im selben Jahr präsentierten Goodfellow und seine Kollegen GANs auf der angesehenen Neural Information Processing Systems (NIPS)6 Conference der Öffentlichkeit. Einige ihrer Ergebnisse sind in Abbildung 3–2 zu sehen. Ihr GAN erzeugte diese neuartigen Bilder, nachdem es mit (a) handgeschriebenen Ziffern7, (b) Fotos von menschlichen Gesichtern8 sowie mit (c) und (d) Fotos aus zehn unterschiedlichen Klassen (z.B. Flugzeuge, Autos, Hunde)9 trainiert worden war. Die Ergebnisse in (c) sind merklich weniger knackig als die in (d), weil das GAN, das die Bilder aus (d) produziert hatte, speziell für das maschinelle Sehen ausgerichtete Neuronenschichten besaß, sogenannte Convolutional Layers oder Konvolutionsschichten10, während das GAN aus (c) nur einen allgemeineren Typ verwendete.11

Deep Learning illustriert

Подняться наверх