Читать книгу Praxiseinstieg Machine Learning mit Scikit-Learn, Keras und TensorFlow - Aurélien Géron - Страница 161
Formel 5-1: Gaußsche RBF
Оглавлениеøγ(x, ℓ) = exp(–γ||x – ℓ||2)
Dies ist eine glockenförmige Funktion, die zwischen 0 (sehr weit von der Landmarke entfernt) und 1 (genau bei der Landmarke) liegt. Damit können wir die neuen Merkmale berechnen. Betrachten wir beispielsweise den Datenpunkt x1 = –1: Er liegt im Abstand 1 zur ersten und im Abstand 2 zur zweiten Landmarke. Daher sind seine neuen Merkmale x2 = exp (–0,3 × 12) ≈ 0,74 und x3 = exp (–0,3 × 22) ≈ 0,30. Das Diagramm auf der rechten Seite von Abbildung 5-8 zeigt den transformierten Datensatz (ohne die ursprünglichen Merkmale). Wie Sie sehen, ist er nun linear separierbar.
Abbildung 5-8: Ähnlichkeit von Merkmalen, berechnet mit der gaußschen RBF
Sie fragen sich vielleicht, wie die Landmarken ausgesucht werden. Die einfachste Möglichkeit ist, lediglich bei jedem einzelnen Datenpunkt eine Landmarke zu erzeugen. Dadurch entstehen sehr viele Dimensionen, und die Chance erhöht sich, dass der transformierte Trainingsdatensatz linear separierbar ist. Der Nachteil dieser Methode ist, dass ein Datensatz mit m Datenpunkten und n Merkmalen in einen Trainingsdatensatz mit m Datenpunkten und m Merkmalen umgewandelt wird (vorausgesetzt, Sie verwerfen die ursprünglichen Merkmale). Wenn Ihr Trainingsdatensatz sehr groß ist, erhalten Sie eine dementsprechend große Anzahl Merkmale.