Читать книгу Praxiseinstieg Machine Learning mit Scikit-Learn, Keras und TensorFlow - Aurélien Géron - Страница 129
Formel 4-8: Kostenfunktion bei der Ridge-Regression
ОглавлениеDer Bias-Term θ0 ist nicht regularisiert (die Summe beginnt bei i = 1, nicht bei 0). Wenn wir w als Gewichtsvektor der Merkmale definieren (θ1 bis θn), ist der Regularisierungsterm einfach gleich ½(|| w ||2)2, wobei || w ||2 für die ℓ2-Norm des Gewichtsvektors steht.10 Beim Gradientenverfahren addieren Sie einfach αw zum MSE-Gradientenvektor hinzu (Formel 4-8).
Es ist wichtig, die Daten zu skalieren (z.B. den StandardScaler zu verwenden), bevor Sie eine Ridge-Regression durchführen, da diese sensibel auf die Skala der Eingabemerkmale reagiert. Dies ist bei den meisten regularisierten Modellen der Fall. |
Abbildung 4-17 zeigt mehrere auf linearen Daten trainierte Ridge-Modelle mit unterschiedlichen Werten für α. Auf der linken Seite wurden einfache Ridge-Modelle verwendet, die zu linearen Vorhersagen führen. Auf der rechten Seite wurden die Daten zunächst mit PolynomialFeatures(degree=10) um polynomielle Merkmale erweitert, anschließend mit dem StandardScaler skaliert, und schließlich wurde die Ridge-Regression auf die fertigen Merkmale angewendet: Dies ist eine polynomielle Regression mit Ridge-Regularisierung.
Abbildung 4-17: Ein lineares Modell (links) und ein polynomielles Modell (rechts), beide mit unterschiedlich starker Ridge-Regression
Beachten Sie, wie ein Erhöhen von α zu flacheren (d.h. weniger extremen, vernünftigeren) Vorhersagen führt; die Varianz des Modells sinkt, aber sein Bias steigt dafür.
Wie die lineare Regression können wir auch die Ridge-Regression entweder als geschlossene Gleichung oder durch das Gradientenverfahren berechnen. Die Vor- und Nachteile sind die gleichen. Formel 4-9 zeigt die Lösung der geschlossenen Form, wobei A eine (n + 1) × (n + 1)-Identitätsmatrix11 ist, nur dass die linke obere Ecke eine 0 für den Bias-Term enthält.