Читать книгу Praktische Statistik für Data Scientists - Peter Bruce - Страница 37

На сайте Литреса книга снята с продажи.

Häufigkeitstabellen und Histogramme

Eine Häufigkeitstabelle teilt den Wertebereich einer Variablen bzw. eines Merkmals in gleich große Intervalle auf und gibt uns Auskunft darüber, wie viele Werte jeweils in jedes Intervall fallen. Tabelle 1-5 zeigt Ihnen eine in R erstellte Häufigkeitstabelle für die Einwohnerzahlen der Bundesstaaten:

breaks <- seq(from=min(state[['Population']]),

to=max(state[['Population']]), length=11)

pop_freq <- cut(state[['Population']], breaks=breaks,

right=TRUE, include.lowest=TRUE)

table(pop_freq)

Die Funktion pandas.cut erzeugt eine Zahlenfolge (Series-Objekt), die die Werte auf die einzelnen Intervalle abbildet. Mit der Methode value_counts erhalten wir die Häufigkeitstabelle:

binnedPopulation = pd.cut(state['Population'], 10)

binnedPopulation.value_counts()

Tabelle 1-5: Eine Häufigkeitstabelle für die Einwohnerzahlen der Bundesstaaten

Der Bundesstaat mit der geringsten Einwohnerzahl ist Wyoming mit 563.626 Menschen, und der bevölkerungsreichste ist Kalifornien mit 37.253.956 Einwohnern. Daraus ergibt sich ein Wertebereich von 37.253.956 – 563.626 = 36.690.330, den wir in gleich große Klassen – sagen wir 10 – aufteilen müssen. Bei 10 gleich großen Klassen hat jede Klasse eine Breite von 3.669.033, sodass das erste Intervall von 563.626 bis 4.232.658 reicht. Im Gegensatz dazu liegt in der obersten Klasse für das Intervall 33.584.923 bis 37.253.956 Einwohnern nur ein einziger Bundesstaat: Kalifornien. Die beiden nächstkleineren Klassen sind unbesetzt, bis als Nächstes der Bundesstaat Texas erreicht wird. Es ist wichtig, die leeren Klassen mit einzubeziehen; die Tatsache, dass sich in diesen Intervallen keine Werte befinden, ist eine nützliche Information. Es kann auch hilfreich sein, mit verschiedenen Klassenbreiten bzw. Intervallgrößen zu experimentieren. Wenn sie zu groß sind, treten wichtige Merkmale der Verteilung gegebenenfalls nicht mehr sichtbar hervor. Werden sie zu klein gewählt, ist das Ergebnis zu feingliedrig, und die Fähigkeit, ein adäquates Gesamtbild zu liefern, geht verloren.

Sowohl Häufigkeitstabellen als auch Perzentile fassen die Daten durch die Einteilung in Klassen bzw. Intervalle übersichtlich zusammen. Im Allgemeinen haben Quartile und Dezile in jeder Klasse die gleiche Anzahl an Beobachtungen (Klassen mit gleicher Anzahl – equal-count bins), aber die Klassenbreite ist für gewöhnlich unterschiedlich. Bei der Häufigkeitstabelle umfassen die Klassen hingegen eine unterschiedliche Anzahl an Beobachtungen, wohingegen die Klassenbreite identisch ist (gleich breite Klassen – equal-size bins).

Ein Histogramm bietet die Möglichkeit, eine Häufigkeitstabelle zu visualisieren. Dabei werden die Klassen auf der x-Achse abgetragen und die Anzahl der Beobachtungen bzw. Häufigkeiten auf der y-Achse. In Abbildung 1-3 erstreckt sich die bei zehn Millionen (1e+07) Einwohnern in der Mitte befindliche Klasse von ungefähr acht bis zwölf Millionen Einwohnern und umfasst insgesamt sechs Beobachtungen. Um ein Histogramm in R zu erstellen, das dem in Tabelle 1-5 entspricht, müssen Sie lediglich die Funktion hist mit dem Argument breaks verwenden:

hist(state[['Population']], breaks=breaks)

Die pandas-Bibliothek unterstützt die Erstellung von Histogrammen für Data-Frame-Objekte mit der Methode DataFrame.plot.hist. Mit dem Schlüsselwortargument bins können Sie die Anzahl der Klassen bestimmen. Die verfügbaren plot-Methoden geben jeweils ein Objekt zurück, das die Koordinaten in Bezug auf die Achsen bereithält und eine weitere Feinabstimmung des Diagramms mithilfe der matplotlib-Bibliothek ermöglicht:

ax = (state['Population'] / 1_000_000).plot.hist(figsize=(4, 4))

ax.set_xlabel('Einwohnerzahl (in Millionen)')

Das Histogramm wird in Abbildung 1-3 gezeigt. Im Allgemeinen werden Histogramme so erstellt:

Auch unbesetzte Klassen werden in die Darstellung mit einbezogen.

Die Klassen sind gleich breit.

Die Wahl der Anzahl der Klassen (oder, äquivalent, der Klassenbreite) ist dem Anwender überlassen.

Die Balken sind direkt aneinander angrenzend – es entsteht kein Abstand zwischen den Balken, es sei denn, es liegt eine unbesetzte Klasse vor.

Abbildung 1-3: Ein Histogramm der Einwohnerzahlen der Bundesstaaten

Statistische Momente In der statistischen Theorie werden die Lage und die Streuung als die ersten und zweiten Momente einer Verteilung bezeichnet. Das dritte Moment ist als Schiefe (engl. Skewness) und vierte als Wölbung (engl. Kurtosis) bekannt. Die Schiefe bezieht sich darauf, ob die Daten zu größeren oder kleineren Werten verzerrt sind, und die Wölbung gibt die Tendenz der Daten zu Extremwerten an. In der Regel werden Metriken zur Messung von Schiefe und Wölbung nicht herangezogen; stattdessen werden diese durch Visualisierungen wie die in den Abbildungen 1-2 und 1-3 erkundet.

Praktische Statistik für Data Scientists

Подняться наверх