Читать книгу Praxiseinstieg Machine Learning mit Scikit-Learn, Keras und TensorFlow - Aurélien Géron - Страница 24
Überwachtes Lernen
ОглавлениеBeim überwachten Lernen enthalten die dem Algorithmus gelieferten Trainingsdaten die gewünschten Lösungen, genannt Labels (siehe Abbildung 1-5).
Abbildung 1-5: Ein Trainingsdatensatz mit Labels zur Spamerkennung (ein Beispiel für überwachtes Lernen)
Klassifikation ist eine typische überwachte Lernaufgabe. Spamfilter sind hierfür ein gutes Beispiel: Sie werden mit vielen Beispiel-E-Mails und deren Kategorie (Spam oder Ham) trainiert und müssen lernen, neue E-Mails zu klassifizieren.
Eine weitere typische Aufgabe ist, eine numerische Zielgröße vorherzusagen, wie etwa den Preis eines Autos auf Grundlage gegebener Merkmale (gefahrene Kilometer, Alter, Marke und so weiter), den sogenannten Prädiktoren. Diese Art Aufgabe bezeichnet man als Regression (siehe Abbildung 1-6).1 Um das System zu trainieren, benötigt es viele Beispielfahrzeuge mitsamt ihren Prädiktoren und Labels (also den Preisen).
Beim Machine Learning ist ein Attribut ein Datentyp (z.B. »Kilometerzahl«), wohingegen ein Merkmal je nach Kontext mehrere Bedeutungen haben kann. Meist ist damit ein Attribut und dessen Wert gemeint (z.B. »Kilometerzahl = 15000«). Allerdings verwenden viele Anwender Attribut und Merkmal synonym. |
Viele Regressionsalgorithmen lassen sich auch zur Klassifikation einsetzen und umgekehrt. Zum Beispiel ist die logistische Regression eine verbreitete Methode für Klassifikationsaufgaben, da sie die Wahrscheinlichkeit der Zugehörigkeit zu einer bestimmten Kategorie als Ergebnis liefert (z.B. 20%ige Chance für Spam).
Abbildung 1-6: Ein Regressionsproblem: Sage mithilfe eines Eingangsmerkmals einen Wert voraus (es gibt meist mehrere Eingangsmerkmale und manchmal auch mehrere Ausgangsmerkmale).
Hier sind ein paar der wichtigsten (in diesem Buch besprochenen) überwachten Lernalgorithmen:
k-nächste-Nachbarn
lineare Regression
logistische Regression
Support Vector Machines (SVMs)
Entscheidungsbäume und Random Forests
neuronale Netzwerke2