Читать книгу Praxiseinstieg Machine Learning mit Scikit-Learn, Keras und TensorFlow - Aurélien Géron - Страница 152
Kreuzentropie
ОглавлениеDie Kreuzentropie stammt aus der Informationstheorie. Nehmen wir einmal an, Sie möchten jeden Tag Informationen über das Wetter effizient übermitteln. Wenn es acht Möglichkeiten gibt (Sonne, Regen und so weiter), könnten Sie jede Möglichkeit durch 3 Bits codieren, da 23 = 8 ergibt. Wenn Sie allerdings wissen, dass es fast jeden Tag sonnig ist, wäre es viel effizienter, »Sonne« als ein Bit (0) zu codieren und die anderen sieben Möglichkeiten durch je vier Bits auszudrücken (die alle mit 1 beginnen). Die Kreuzentropie bestimmt die durchschnittliche Anzahl Bits, die Sie pro Möglichkeit übermitteln. Wenn Ihre Annahme über das Wetter perfekt ist, entspricht die Kreuzentropie der Entropie des Wetters (d.h. dessen intrinsischer Unvorhersagbarkeit). Sind Ihre Annahmen aber falsch (z.B. weil es häufig regnet), erhöht sich die Kreuzentropie um einen Betrag, den man als Kullback-Leibler-Divergenz (KL-Divergenz) bezeichnet.
Die Kreuzentropie zweier Wahrscheinlichkeitsverteilungen p und q ist als
definiert (zumindest wenn die Verteilungen diskret sind). Mehr Informationen dazu finden Sie in meinem Video zum Thema (https://homl.info/xentropy).
Der Gradientenvektor dieser Kostenfunktion nach θ(k) ist in Formel 4-23 geschrieben.