Читать книгу Praxiseinstieg Machine Learning mit Scikit-Learn, Keras und TensorFlow - Aurélien Géron - Страница 111
Formel 4-2: Lineares Regressionsmodell zur Vorhersage (Vektorschreibweise)
Оглавлениеŷ = hθ(X) = θ·x
θ ist der Parametervektor des Modells mit Bias-Term θ0und den Gewichten der Merkmale θ1 bis θn.
x ist der Merkmalsvektor eines Datenpunkts mit den Werten x0 bis xn, wobei x0 stets 1 beträgt.
θ · x ist das Skalarprodukt der Vektoren θ und x, was natürlich θ0x0 + θ1x1 + θ2x2 + … + θnxn entspricht.
hθ ist die Hypothesenfunktion unter Verwendung der Modellparameter θ.
Beim Machine Learning werden Vektoren oft als Spaltenvektoren repräsentiert, also als zweidimensionale Arrays mit einer einzelnen Spalte. Handelt es sich bei θ und x um Spaltenvektoren, ist die Vorhersage = θTx, wobei es sich bei θT um die Transponierte von θ handelt (ein Zeilen- statt eines Spaltenvektors) und θTx die Matrixmultiplikation von θT und x ist. Das ist natürlich die gleiche Vorhersage, nur dass sie nun als Matrix mit einer Zelle statt als Skalarwert dargestellt wird. In diesem Buch werde ich diese Notation nutzen, um einen Wechsel zwischen Skalarprodukt und Matrixmultiplikationen zu vermeiden. |
Dies ist also ein lineares Regressionsmodell. Wie sollen wir dieses trainieren? Wir erinnern uns, dass wir beim Trainieren eines Modells dessen Parameter so einstellen, dass das Modell so gut wie möglich an die Trainingsdaten angepasst ist. Dazu benötigen wir zuerst ein Qualitätsmaß für die Anpassung des Modells an die Trainingsdaten. In Kapitel 2 haben wir gesehen, dass das häufigste Gütekriterium bei einem Regressionsmodell die Wurzel der mittleren quadratischen Abweichung oder der Root Mean Square Error (RMSE) (Formel 2-1) ist. Um ein lineares Regressionsmodell zu trainieren, müssen wir daher den Wert für θ finden, für den der RMSE minimal wird. In der Praxis ist es einfacher, die mittlere quadratische Abweichung anstelle des RMSE zu berechnen. Dabei erhalten wir das gleiche Ergebnis (weil ein Wert, der eine Funktion minimiert, auch dessen Quadratwurzel minimiert).1
Der mittlere quadratische Fehler (MSE) der Hypothese einer linearen Regression hθ lässt sich auf dem Trainingsdatensatz X mithilfe von Formel 4-3 berechnen.