Читать книгу Praxiseinstieg Machine Learning mit Scikit-Learn, Keras und TensorFlow - Aurélien Géron - Страница 68

Visualisieren geografischer Daten

Оглавление

Weil uns geografische Informationen zur Verfügung stehen (Breite und Länge), sollten wir einen Scatterplot sämtlicher Bezirke erzeugen, um uns die Daten anzusehen (siehe Abbildung 2-11):

housing.plot(kind="scatter", x="longitude", y="latitude")

Abbildung 2-11: Ein geografischer Scatterplot der Daten

In Ordnung, die Abbildung sieht wie Kalifornien aus, aber abgesehen davon ist es schwierig, irgendein Muster zu erkennen. Setzen wir den Parameter alpha auf 0,1, wird es viel einfacher, die Orte mit einer hohen Dichte an Datenpunkten zu erkennen (siehe Abbildung 2-12):

housing.plot(kind="scatter", x="longitude", y="latitude", alpha=0.1)

Abbildung 2-12: Eine bessere Darstellung von Gebieten mit hoher Dichte

Das sieht schon viel besser aus: Sie können die Ballungszentren deutlich erkennen, genauer gesagt die Bay Area, den Großraum Los Angeles und San Diego sowie eine lange Reihe einigermaßen hoher Dichte im Central Valley, insbesondere um Sacramento und Fresno.

Unser Gehirn ist sehr gut darin, Muster in Bildern zu erkennen. Sie müssen jedoch mit den Parametern zur Visualisierung experimentieren, damit diese Muster deutlich hervortreten.

Betrachten wir nun die Immobilienpreise (siehe Abbildung 2-13). Der Radius jedes Kreises stellt die Bevölkerung eines Bezirks dar (Option s), und die Farbe repräsentiert den Preis (Option c). Wir verwenden eine vordefinierte Farbskala (Option cmap) namens jet, die von Blau (niedrige Werte) bis Rot (hohe Werte) reicht:16

housing.plot(kind="scatter", x="longitude", y="latitude", alpha=0.4,

s=housing["population"]/100, label="population", figsize=(10,7),

c="median_house_value", cmap=plt.get_cmap("jet"), colorbar=True,

)

plt.legend()

Abbildung 2-13: Immobilienpreise in Kalifornien: Rot ist teuer, Blau bedeutet günstig, größere Kreise stehen für Bereiche mit mehr Bevölkerung.

In diesem Bild können Sie erkennen, dass die Immobilienpreise stark mit dem Ort (z.B. der Nähe zum Ozean) und der Bevölkerungsdichte zusammenhängen, was Sie vermutlich bereits wussten. Es könnte hilfreich sein, die wichtigsten Cluster mit einem Clustering-Algorithmus zu identifizieren und einige neue Merkmale mit der Entfernung zu den Cluster-Mittelpunkten hinzuzufügen. Die Nähe zum Ozean sollte als Merkmal ebenfalls nützlich sein, obwohl die Immobilienpreise in Nordkalifornien in Küstennähe nicht außerordentlich hoch sind, daher ist dies keine grundsätzliche Regel.

Praxiseinstieg Machine Learning mit Scikit-Learn, Keras und TensorFlow

Подняться наверх