Читать книгу Machine Learning – kurz & gut - Oliver Zeigermann - Страница 24

Eine bessere Feature-Auswahl

Оглавление

Umso erstaunlicher ist es, dass wir mit den Petal-Features sehr viel weiterkommen und fast Werte erzielen wie für alle vier Features zusammen. Wir bleiben bei zehn Nachbarn und bekommen diese Decision Boundaries, die wir in Abbildung 2-5 zuerst zusammen mit den Trainingsdaten anzeigen.

Abbildung 2-5: Petal-Features-Decision-Boundaries mit Trainingsdaten

Du kannst glatte Übergänge sehen und ebenso nur geringe Fehler bei den beiden Klassen in der Mitte und rechts. Das spiegelt sich auch in den Scores wider:

clf_petal_10.score(X_train_petal_only, y_train)

> 0.96666666666666667

Nicht perfekt, aber sehr gut, und vor allem sehr ähnliche Scores bei den Testdaten:

clf_petal_10.score(X_test_petal_only, y_test)

> 0.94999999999999996

In Abbildung 2-6 kannst du nun noch einmal dieselben Decision Boundaries sehen, dieses Mal aber mit den Testdaten. An der Decision Boundary rechts kann es keine glatte Grenze geben, die sowohl für die Trainingsdaten als auch für die Testdaten gute Ergebnisse liefert.

Abbildung 2-6: Petal-Features: Decision Boundaries mit Testdaten

Das Erstaunliche und Bemerkenswerte hier: Wir haben zwar wieder nur zwei Features verwendet, aber dieses Mal viel bessere Ergebnisse bekommen. Wir lernen daraus, dass es nicht nur auf die Menge der Features ankommt, sondern auch darauf, welche Features man auswählt. Hier hatten wir nur mehr oder weniger Glück mit der Auswahl, wie man das aber systematisch macht und warum das hier so gut geklappt hat, lernst du in Kapitel 5, Feature-Auswahl, und Kapitel 6, Modellvalidierung.

Die hier erklärte Nearest Neighbors Classification ist relativ einfach, aber erstaunlich häufig ausreichend. In Kapitel 4, Supervised Learning, zeigen wir dir weitere Lernstrategien, die grundsätzlich anders funktionieren.

Wir hoffen zudem, auf die theoretisch anspruchsvolleren Kapitel 5 und Kapitel 6 neugierig gemacht zu haben. Wie wir trainieren und wie wir Features auswählen, ist offensichtlich essenziell für unseren Erfolg.

Machine Learning – kurz & gut

Подняться наверх