Читать книгу Praxiseinstieg Machine Learning mit Scikit-Learn, Keras und TensorFlow - Aurélien Géron - Страница 52
Der Umgang mit realen Daten
ОглавлениеWenn Sie Machine Learning gerade erst erlernen, experimentieren Sie am besten mit realen Daten, nicht mit künstlich generierten Datensätzen. Glücklicherweise stehen Tausende frei verfügbarer Datensätze aus allen möglichen Fachgebieten zur Auswahl. Hier sind einige Quellen, unter denen Sie passende Daten finden können:
Beliebte Archive mit frei verfügbaren Daten:– UC Irvine Machine Learning Repository (http://archive.ics.uci.edu/ml/)– Datensätze von Kaggle (https://www.kaggle.com/datasets)– Datensätze von Amazon AWS (https://registry.opendata.aws/)
Metaseiten (Listen von Datenarchiven):– Data Portals (http://dataportals.org/)– OpenDataMonitor (http://opendatamonitor.eu/)– Quandl (http://quandl.com/)
Andere Seiten, die beliebte offene Datenarchive auflisten:– Die Wikipedia-Seite mit Machine-Learning-Datensätzen (https://homl.info/9)– Quora.com (https://homl.info/10)– subreddit zu Datensätzen (https://www.reddit.com/r/datasets)
Für dieses Kapitel suchen wir uns einen Datensatz zu Immobilienpreisen in Kalifornien aus dem StatLib Repository aus (siehe Abbildung 2-1).2 Dieser Datensatz basiert auf Informationen aus der kalifornischen Volkszählung von 1990. Er ist nicht gerade aktuell (in der San Francisco Bay konnte man sich damals noch ein nettes Häuschen leisten), bietet aber viele Eigenschaften, anhand deren sich gut lernen lässt. Wir werden deshalb so tun, als wären die Daten aktuell. Wir haben aus didaktischen Gründen auch ein zusätzliches Merkmal hinzugefügt und einige Merkmale entfernt.
Abbildung 2-1: Immobilienpreise in Kalifornien