Читать книгу Deep Learning illustriert - Jon Krohn - Страница 42
3.5Fotorealistische Bilder aus Text erzeugen
ОглавлениеUm dieses Kapitel abzurunden, möchten wir, dass Sie einen Blick auf die wirklich fotorealistischen, hochaufgelösten Bilder in Abbildung 3–7 werfen. Diese Bilder wurden mittels StackGAN18 erzeugt, einem Ansatz, bei dem zwei GANs aufeinander gestapelt (englisch: »stack«) werden. Das erste GAN in der Architektur wird so konfiguriert, dass es ein grobes, niedrig aufgelöstes Bild mit der allgemeinen Form und den Farben der relevanten, vorhandenen Objekte erzeugt. Dies wird dann als Eingabe an das zweite GAN übergeben, wo das nachgeahmte »Foto« verfeinert wird, indem seine Unvollkommenheiten behoben und ausreichend viele Details hinzugefügt werden. Das StackGAN ist ein cGAN wie das pix2pix-Netz aus dem vorherigen Abschnitt, allerdings wird die Bildausgabe auf Texteingaben statt auf ein Bild konditioniert.
Abb. 3–7 Fotorealistische, hochaufgelöste Bildausgabe eines StackGAN, bei dem zwei GANs aufeinandergestapelt werden