Читать книгу Praxiseinstieg Machine Learning mit Scikit-Learn, Keras und TensorFlow - Aurélien Géron - Страница 156
Lineare Klassifikation mit SVMs
ОглавлениеDer SVMs zugrunde liegende Gedanke lässt sich am besten anhand einiger Bilder erläutern. Abbildung 5-1 zeigt einen Teil des Iris-Datensatzes, der am Ende von Kapitel 4 erstmals erwähnt wurde. Die zwei Kategorien lassen sich sehr leicht mit einer Geraden voneinander trennen (sie sind linear separierbar). Das Diagramm auf der linken Seite zeigt die Entscheidungsgrenzen dreier möglicher linearer Klassifikatoren. Das als gestrichelte Linie dargestellte Modell ist so schlecht, dass es die Kategorien nicht einmal ordentlich voneinander trennt. Die zwei übrigen Modelle funktionieren auf dem Trainingsdatensatz ausgezeichnet, aber ihre Entscheidungsgrenzen befinden sich sehr nah an den Datenpunkten, sodass diese Modelle bei neuen Daten vermutlich nicht besonders gut abschneiden werden. Die durchgezogene Linie im Diagramm auf der rechten Seite dagegen stellt die Entscheidungsgrenze eines SVM-Klassifikators dar; diese Linie separiert die beiden Kategorien nicht nur, sie hält auch den größtmöglichen Abstand zu den Trainingsdatenpunkten ein. Sie können sich einen SVM-Klassifikator als die breitestmögliche Straße zwischen den Kategorien vorstellen (hier als parallele gestrichelte Linien dargestellt). Dies bezeichnet man auch als Large-Margin-Klassifikation.
Abbildung 5-1: Large-Margin-Klassifikation
Beachten Sie, dass das Hinzufügen neuer Trainingsdaten »abseits der Straße« die Entscheidungsgrenze überhaupt nicht beeinflusst: Sie wird ausschließlich durch die Datenpunkte am Rand der Straße determiniert (oder »gestützt«). Diese Datenpunkte nennt man deshalb auch die Stützvektoren (engl. Support Vectors) (diese sind in Abbildung 5-1 durch Kreise markiert).
Abbildung 5-2: Empfindlichkeit für Skalierung der Merkmale
SVMs reagieren empfindlich auf die Skalierung der Merkmale, wie Sie in Abbildung 5-2 sehen: Im linken Diagramm ist die vertikale Skala deutlich größer als die horizontale. Daher ist die breitestmögliche Straße nahezu horizontal. Nach Skalieren der Merkmale (z.B. mit dem StandardScaler in Scikit-Learn), sieht die Entscheidungsgrenze deutlich besser aus (auf der rechten Seite). |