Читать книгу Praxiseinstieg Machine Learning mit Scikit-Learn, Keras und TensorFlow - Aurélien Géron - Страница 180
Mercers Theorem
ОглавлениеLaut Mercers Theorem muss, wenn eine Funktion K(a, b) einige mathematische Bedingungen, die Mercer-Bedingungen (K muss stetig sein, seine Parameter symmetrisch, sodass gilt K(a, b) = K(b, a) und so weiter), erfüllt, auch eine Funktion ϕ existieren, die a und b in einen anderen Raum abbildet (der möglicherweise sehr viel mehr Dimensionen aufweist), sodass gilt: K(a, b) = ϕ(a)T ϕ(b). Damit können Sie K als Kernel einsetzen, da Sie ja wissen, dass ϕ existiert, selbst wenn Sie ϕ nicht genau kennen. Im Fall des gaußschen RBF-Kernels lässt sich nachweisen, dass ϕ jeden Trainingsdatenpunkt in einen Raum mit unendlich vielen Dimensionen transformiert, es ist also gut, dass Sie die Zuordnung nicht vornehmen müssen!
Einige häufig eingesetzte Kernels (wie der sigmoide Kernel) erfüllen nicht alle Mercer-Bedingungen. In der Praxis funktionieren sie dennoch gut.
Um ein loses Ende müssen wir uns noch kümmern. Formel 5-7 zeigt, wie wir im Fall eines linearen SVM-Klassifikators von einer dualen Lösung zur primalen Lösung gelangen. Wenn Sie aber den Kerneltrick anwenden, erhalten Sie Gleichungen mit ϕ(x(i)). Tatsächlich muss die gleiche Anzahl Dimensionen wie ϕ(x(i)) aufweisen. Diese Zahl kann sehr groß oder sogar unendlich sein und ist daher nicht berechenbar. Wie aber können wir Vorhersagen treffen, ohne zu kennen? Die gute Nachricht ist, dass wir hier die Formel für aus Formel 5-7 in die Entscheidungsfunktion für einen neuen Datenpunkt x(n) einsetzen können und eine Formel erhalten, die ausschließlich aus Skalarprodukten zwischen den Eingabevektoren besteht. Damit ist wieder der Kerneltrick einsetzbar (Formel 5-11).