Читать книгу Praxiseinstieg Machine Learning mit Scikit-Learn, Keras und TensorFlow - Aurélien Géron - Страница 143
Formel 4-16: Kostenfunktion eines einzelnen Trainingsdatenpunkts
ОглавлениеDiese Kostenfunktion ist sinnvoll, weil –log(t) sehr groß wird, sobald t sich 0 nähert. Daher sind die Kosten hoch, wenn das Modell bei einem positiven Datenpunkt eine Wahrscheinlichkeit nahe 0 schätzt, und ebenso, wenn das Modell bei einem negativen Datenpunkt eine Wahrscheinlichkeit nahe 1 schätzt. Andererseits ist –log(t) nahe 0, wenn t nahe 1 ist, sodass die Kosten auf 0 zugehen, wenn die geschätzte Wahrscheinlichkeit bei einem negativen Datenpunkt nahe bei 0 oder bei einem positiven Datenpunkt nahe bei 1 liegt. Genau das benötigen wir.
Die Kostenfunktion über den gesamten Trainingsdatensatz entspricht den durchschnittlichen Kosten über sämtliche Trainingsdatenpunkte. Diese lässt sich wie in Formel 4-17 ausdrücken, die man als Log Loss bezeichnet.