Читать книгу Praxiseinstieg Machine Learning mit Scikit-Learn, Keras und TensorFlow - Aurélien Géron - Страница 108
KAPITEL 4 Trainieren von Modellen
ОглавлениеBisher haben wir Modelle zum Machine Learning und deren Trainingsalgorithmen mehr oder weniger als Black Box behandelt. Wenn Sie sich mit den Übungen in den ersten Kapiteln beschäftigt haben, war es vielleicht überraschend für Sie, wie viel Sie erreichen können, ohne etwas über die Funktionsweise der Modelle zu wissen: Sie haben ein System zur Regression optimiert, Sie haben einen Klassifikator für Ziffern verbessert und sogar einen Spamfilter aufgebaut – alles ohne zu wissen, wie diese eigentlich funktionieren. Tatsächlich brauchen Sie in den meisten Fällen die Details der Implementierung nicht zu kennen.
Ein Grundverständnis der Funktionsweise der Modelle hilft Ihnen allerdings dabei, sich schnell auf ein geeignetes Modell, das richtige Trainingsverfahren und einen guten Satz Hyperparameter für Ihre Aufgabe einzuschießen. Die Hintergründe zu verstehen, hilft Ihnen auch bei der Fehlersuche und erlaubt eine effizientere Fehleranalyse. Schließlich sind die meisten in diesem Kapitel besprochenen Themen eine Voraussetzung für Verständnis, Aufbau und Training von neuronalen Netzen (mit denen wir uns in Teil II dieses Buchs befassen werden).
In diesem Kapitel betrachten wir Modelle zur linearen Regression, einem der einfachsten Modelle überhaupt. Wir werden zwei unterschiedliche Ansätze zum Trainieren diskutieren:
Verwenden einer Gleichung mit »geschlossener Form«, die die für den Trainingsdatensatz idealen Modellparameter direkt berechnet (also die Modellparameter, die eine Kostenfunktion über die Trainingsdaten minimieren).
Verwenden eines iterativen Optimierungsverfahrens, des Gradientenverfahrens (GD), bei dem die Modellparameter schrittweise angepasst werden, um die Kostenfunktion über die Trainingsdaten zu minimieren und dabei möglicherweise die gleichen Parameter wie beim ersten Ansatz zu erhalten. Wir werden einige Varianten des Gradientenverfahrens betrachten, die uns bei den neuronalen Netzen in Teil II wieder und wieder begegnen werden: das Batch-Gradientenverfahren, das Mini-Batch-Gradientenverfahren und das stochastische Gradientenverfahren.
Anschließend werden wir einen Blick auf die polynomielle Regression werfen, ein komplexeres Modell, das sich auch für nichtlineare Daten eignet. Da es bei diesem Modell mehr Parameter als bei der linearen Regression gibt, ist es anfälliger für ein Overfitting der Trainingsdaten. Wir werden uns daher ansehen, wie sich eine Überanpassung mit Lernkurven erkennen lässt, und betrachten anschließend einige Techniken zur Regularisierung, mit denen sich die Gefahr einer Überanpassung an die Trainingsdaten senken lässt.
Schließlich werden wir zwei weitere Modelle anschauen, die häufig für Klassifikationsaufgaben eingesetzt werden: die logistische Regression und die Softmax-Regression.
Dieses Kapitel enthält einige mathematische Formeln, die Begriffe aus der linearen Algebra und Analysis verwenden. Um diese Formeln zu verstehen, müssen Sie wissen, was Vektoren und Matrizen sind, wie sich diese transponieren und multiplizieren lassen, wie man sie invertiert und was partielle Ableitungen sind. Wenn Sie mit diesen Begriffen nicht vertraut sind, gehen Sie bitte die als Jupyter-Notebooks verfügbaren einführenden Tutorials zu linearer Algebra und Analysis in den Onlinematerialien (https://github.com/ageron/handson-ml2) durch. Diejenigen unter Ihnen mit einer ausgeprägten Mathe-Allergie sollten dieses Kapitel dennoch durchgehen und die Formeln überspringen; ich hoffe, der Text hilft Ihnen, einen Großteil der Begriffe zu verstehen. |