Читать книгу Praxiseinstieg Machine Learning mit Scikit-Learn, Keras und TensorFlow - Aurélien Géron - Страница 119
Formel 4-6: Gradientenvektor der Kostenfunktion
ОглавлениеBeachten Sie, dass diese Formel bei jedem Schritt im Gradientenverfahren Berechnungen über den gesamten Trainingsdatensatz X vornimmt. Daher bezeichnet man diesen Algorithmus auch als Batch-Gradientenverfahren: Dieses Verfahren verwendet bei jedem Schritt den gesamten Stapel Trainingsdaten (vollständiges Gradientenverfahren wäre eigentlich ein besserer Name) und ist daher bei sehr großen Trainingsdatensätzen auffällig langsam (wir werden aber gleich einen viel schnelleren Algorithmus für das Gradientenverfahren kennenlernen). Das Gradientenverfahren skaliert dafür gut mit der Anzahl Merkmale; das Trainieren eines linearen Regressionsmodells mit Hunderttausenden von Merkmalen ist mit dem Gradientenverfahren sehr viel schneller als mit der Normalengleichung oder der SVD-Zerlegung. |
Sobald Sie den Gradientenvektor ermittelt haben, der bergauf weist, gehen Sie einfach in die entgegengesetzte Richtung, um sich bergab zu bewegen. Dazu müssen Sie θMSE(θ) von θ abziehen. An dieser Stelle kommt die Lernrate η ins Spiel:5 Multiplizieren Sie den Gradientenvektor mit η, um die Größe des Schritts bergab zu ermitteln (Formel 4-7).