Читать книгу Praktische Statistik für Data Scientists - Peter Bruce - Страница 28

Standardabweichung und ähnliche Maße

Оглавление

Die meistgenutzten Streuungsmaße basieren auf den Differenzen bzw. Abweichungen zwischen den Lagemaßen und den beobachteten Daten. Für eine gegebene Zahlenfolge {1, 4, 4} ist der Mittelwert 3 und der Median 4. Die Abweichungen vom Mittelwert entsprechen den jeweiligen Differenzen: 1 – 3 = –2, 4 – 3 = 1, 4 – 3 = 1. Diese Abweichungen geben uns Aufschluss darüber, wie weit die Daten um den Zentralwert herum gestreut sind.

Eine Möglichkeit, die Streuung zu messen, besteht darin, einen typischen Wert für diese Abweichungen zu schätzen. Eine Mittelwertbildung über die Abweichungen selbst würde uns nicht viel sagen – die negativen Abweichungen würden die positiven ausgleichen. Tatsächlich ist auch im vorliegenden Beispiel die Summe der Abweichungen vom Mittelwert genau null. Stattdessen können wir den Mittelwert der Absolutwerte der Abweichungen vom Mittelwert bilden. Im vorhergehenden Beispiel sind die Absolutwerte der Abweichungen {2 1 1}, und ihr Mittelwert ergibt (2 + 1 + 1) / 3 = 1,33. Dieses Maß wird als mittlere absolute Abweichung bezeichnet und mit der folgenden Formel ermittelt:


wobei für den Stichprobenmittelwert steht.

Die bekanntesten Streuungsmaße sind die Varianz und die Standardabweichung, die auf den quadratischen Abweichungen beruhen. Die Varianz ist der Durchschnitt der quadrierten Abweichungen, und die Standardabweichung ist wiederum die Quadratwurzel der Varianz:


Die Standardabweichung ist viel leichter zu interpretieren als die Varianz, da sie auf dieselbe Skala wie die Originaldaten bezogen ist. Dennoch mag es mit ihrer komplizierteren und weniger intuitiven Formel merkwürdig erscheinen, dass die Standardabweichung in der Statistik gegenüber der mittleren absoluten Abweichung bevorzugt wird. Sie verdankt ihre Vorrangstellung der statistischen Theorie: Mathematisch gesehen, ist es sehr viel vorteilhafter, quadrierte Werte zu verwenden – und nicht Absolutwerte –, insbesondere in statistischen Modellen.

Praktische Statistik für Data Scientists

Подняться наверх