Читать книгу Machine Learning – kurz & gut - Oliver Zeigermann - Страница 15

Visualisierung

Оглавление

Unsere Gehirne sind großartig darin, Muster in visuellen Darstellungen zu erkennen. Nicht so großartig sind wir darin, lange Datenkolonnen auszuwerten und daraus interessante Informationen abzuleiten. Sieh dir dazu einmal den Auszug aus Datensätzen über Flüge in Google Sheets in Abbildung 1-4 an.

Wie viele Informationen kann man als Mensch aus so einer Tabelle herausziehen? Nicht besonders viele. Und verlockend ist die Aufgabe auch nicht gerade.

Abbildung 1-4: Rohe Datensätze in Google Sheets

Wie sieht das nun mit einer Grafik aus, die die Verteilung von Verspätungen aus diesen Datensätzen aufbereitet? Diese haben wir als Diagramm aus den Google Sheets in Abbildung 1-5 aufbereitet.

Abbildung 1-5: Verteilung von Verspätungen als Google-Sheets-Diagramm

Auch wenn diese automatisch erzeugte Grafik noch einige Punkte zu wünschen übrig lässt, sehen wir sofort, dass die meisten Verspätungen (über 300) in dem ersten Balken liegen. Die meisten Flüge aus unseren Daten sind also entweder gar nicht oder nur gering verspätet.

Auch die weitere Verteilung der Verspätungen können wir auf einen Blick erfassen. Eine Häufung am rechten Rand fällt noch auf. Manche Flüge scheinen extrem verspätet. Ohne genauer auf die Interpretation dieser Daten einzugehen: Dies aus einer Menge von rohen Datensätzen herauszulesen, wäre uns vermutlich ohne den Umweg über eine – eventuell von Hand gezeichnete – Grafik nicht möglich gewesen.

Aus diesem Grund werden wir immer wieder Visualisierungen unserer Daten mit Python erzeugen und auch in dieses Buch einbinden. Wie das geht, lernst du Schritt für Schritt in jedem Kapitel ein wenig mehr.

Machine Learning – kurz & gut

Подняться наверх