Читать книгу Praktische Statistik für Data Scientists - Peter Bruce - Страница 42

Schlüsselbegriffe zur Exploration kategorialer Daten

Оглавление

Modus

Die am häufigsten vorkommende Kategorie oder der am häufigsten vorkommende Wert in einem Datensatz (engl. Mode).

Erwartungswert

Wenn die Kategorien mit einem numerischen Wert verknüpft werden können, ergibt sich ein Durchschnittswert auf Basis der Eintrittswahrscheinlichkeiten der Kategorien (engl. Expected Value).

Balkendiagramm

Die Häufigkeiten oder relativen Anteile aller Kategorien, in Form von Balken dargestellt (engl. Bar Chart).

Kreisdiagramm

Die Häufigkeiten oder relativen Anteile aller Kategorien in Form von Kreissektoren als Teile eines Kreises, auch als Kuchen- oder Tortendiagramm bekannt (engl. Pie Chart).

Sich eine Übersicht über eine binäre Variable oder eine kategoriale Variable mit einigen wenigen Kategorien zu verschaffen, ist eine ziemlich einfache Angelegenheit: Wir müssen nur den Anteil von »Einsen« bzw. Erfolgen im binären Fall oder in Bezug auf kategoriale Daten die Anteile der im Fokus stehenden Kategorien ermitteln. Zum Beispiel zeigt Tabelle 1-6 die prozentuale Verteilung der verspäteten Flüge am Flughafen Dallas/Fort Worth im Jahr 2010, aufgeschlüsselt nach ihrem Verspätungsgrund. Die Verspätungen werden dabei in Kategorien unterteilt, die Aufschluss über den Grund der Verspätung geben. Hierzu zählen solche, die dem Verantwortungsbereich der Fluggesellschaft unterliegen, Verspätungen, die auf die Flugverkehrskontrolle (FVK) zurückzuführen sind, auf das Wetter, auf die Sicherheitsvorkehrungen oder auch auf ein verspätet eintreffendes Flugzeug für einen Anschlussflug.

Tabelle 1-6: Prozentuale Verteilung der Verspätungen am Flughafen Dallas/Fort Worth, aufgeschlüsselt nach ihrem Verspätungsgrund


Die auch häufig in der Tagespresse anzutreffenden Balkendiagramme sind ein gängiges visuelles Hilfsmittel zur Darstellung einer einzelnen kategorialen Variablen. Die Kategorien werden auf der x-Achse und die jeweiligen Häufigkeiten oder die relativen Anteile auf der y-Achse dargestellt. Abbildung 1-5 zeigt die Flugverspätungen, sortiert nach Verspätungsgrund, für den Flughafen Dallas/Fort Worth (DFW) im Jahr 2010. Sie kann relativ simpel mit der R-Funktion barplot erstellt werden:

barplot(as.matrix(dfw) / 6, cex.axis=0.8, cex.names=0.7,

xlab='Verspätungsgrund', ylab='Anzahl')

Die pandas-Bibliothek unterstützt ebenfalls Balkendiagramme:

ax = dfw.transpose().plot.bar(figsize=(4, 4), legend=False)

ax.set_xlabel('Verspätungsgrund')

ax.set_ylabel('Anzahl')

Abbildung 1-5: Balkendiagramm der Flugverspätungen am DFW nach Verspätungsgrund

Beachten Sie, dass ein Balkendiagramm einem Histogramm ähnelt; in einem Balkendiagramm repräsentiert die x-Achse verschiedene Kategorien einer Faktorvariablen, während in einem Histogramm die x-Achse die Werte einer einzelnen Variablen numerisch skaliert darstellt. In einem Histogramm werden die Balken typischerweise aneinander angrenzend dargestellt, wobei Lücken auf Werte hinweisen, die in den Daten nicht vorkommen. In einem Balkendiagramm werden die Balken getrennt voneinander dargestellt.

Kreisdiagramme stellen eine Alternative zu Balkendiagrammen dar, obwohl Statistiker und Datenvisualisierungsexperten im Allgemeinen Kreisdiagramme als weniger informativ ansehen (siehe [Few-2007]).

Numerische Daten als kategoriale Daten In »Häufigkeitstabellen und Histogramme« auf Seite 23 betrachteten wir Häufigkeitstabellen, die auf einer Klasseneinteilung der Daten basieren. Dadurch werden die numerischen Daten implizit in einen geordneten Faktor umgewandelt. In diesem Sinne sind Histogramme und Balkendiagramme einander ähnlich, außer dass die Kategorien auf der x-Achse im Balkendiagramm nicht geordnet sind. Die Konvertierung numerischer Daten in kategoriale Daten ist ein wichtiger und weitverbreiteter Schritt in der Datenanalyse, da er die Komplexität (und die Größe bzw. den Umfang) der Daten verringert. Dies hilft beim Aufdecken von Beziehungen zwischen Merkmalen, insbesondere in den ersten Schritten einer Analyse.
Praktische Statistik für Data Scientists

Подняться наверх