Читать книгу Deep Learning illustriert - Jon Krohn - Страница 18
1.2.4ImageNet und die ILSVRC
ОглавлениеWie bereits erwähnt, bestand einer der Vorteile von LeNet-5 gegenüber dem Neocognitron in seinem größeren und höherwertigen Satz an Trainingsdaten. Der nächste Durchbruch bei neuronalen Netzen wurde ebenfalls durch einen qualitativ hochwertigen öffentlichen Datensatz ermöglicht, der dieses Mal viel größer war. ImageNet, eine kategorisierte Bilderdatenbank, die von Fei-Fei Li (Abbildung 1–14) begründet wurde, gibt Machine-Learning-Forschern einen riesigen Katalog mit Trainingsdaten an die Hand.19, 20 Zum Vergleich: Die handgeschriebenen Zifferndaten, die zum Trainieren von LeNet-5 benutzt wurden, enthielten Zehntausende von Bildern. ImageNet besteht aus mehr als 14 Millionen Fotos.
Die 14 Millionen Bilder in der ImageNet-Datenbank sind in über 22.000 Kategorien eingeteilt. Diese Kategorien enthalten so unterschiedliche Dinge wie Containerschiffe, Leoparden, Seesterne und Holunderbeeren. Seit 2010 veranstaltet Li jährlich einen offenen Wettstreit namens ILSVRC (ImageNet Large Scale Visual Recognition Challenge) auf einer Teilmenge der ImageNet-Daten, der mittlerweile das wichtigste Terrain zum Beurteilen der modernsten Algorithmen zum maschinellen Sehen darstellt. Die ILSVRC-Teilmenge besteht aus 1,4 Millionen Bildern aus 1.000 Kategorien. Dabei wird nicht nur ein breites Spektrum an Kategorien geboten; viele der ausgewählten Kategorien sind darüber hinaus Hunderassen, sodass nicht nur die Fähigkeit der Algorithmen abgeschätzt wird, deutlich verschiedene Bilder zu unterscheiden, sondern auch solche zu erkennen, die sich nur leicht voneinander abheben.21
Abb. 1–14Der gigantische ImageNet-Datensatz ist das geistige Kind der chinesischamerikanischen Informatikprofessorin Fei-Fei Li und ihrer Kollegen in Princeton und entstand 2009. Li, die mittlerweile an der Stanford University arbeitet, ist außerdem Chefwissenschaftlerin für KI/ML bei Googles Cloud-Plattform.