Читать книгу Praktische Statistik für Data Scientists - Peter Bruce - Страница 30

Streuungsmaße auf Basis von Perzentilen

Оглавление

Ein anderer Ansatz zur Schätzung der Streuung basiert auf der Betrachtung der Streuung der sortierten Daten. Statistiken, die auf sortierten (d.h. in einer Rangfolge geordneten) Daten basieren, werden als Ordnungsstatistiken bezeichnet. Das grundlegende Maß ist die Spannweite: die Differenz zwischen dem größten und dem kleinsten Wert. Die Minimal- und Maximalwerte selbst sind zwar durchaus interessant und bei der Identifizierung von Ausreißern nützlich, aber die Spannweite erweist sich als äußerst empfindlich gegenüber Ausreißern und ist als allgemeines Streuungsmaß nicht sehr hilfreich.

Um der Anfälligkeit gegenüber Ausreißern vorzubeugen, können wir vor der Ermittlung der Spannweite Werte an beiden Enden der Daten weglassen. Formal basieren diese Arten von Schätzern auf Unterschieden zwischen Perzentilen. In einem Datensatz ist das P%-Perzentil so definiert, dass mindestens P % der Werte diesen Wert oder weniger und mindestens (100 – P) % der Werte diesen Wert oder mehr annehmen. Um zum Beispiel das 80%-Perzentil zu ermitteln, müssen Sie die Daten zunächst sortieren. Dann gehen Sie, beginnend beim kleinsten Wert, 80% der Strecke zum größten Wert weiter. Der Median ist übrigens ein und dasselbe wie das 50%-Perzentil. Ein Perzentil ist im Wesentlichen dasselbe wie ein Quantil, wobei Quantile durch Bruchzahlen angegeben werden (das 0,8-Quantil ist also dasselbe wie das 80%-Perzentil).

Ein gebräuchliches Streuungsmaß ist die Differenz zwischen dem 25%-Perzentil und dem 75%-Perzentil, der sogenannte Interquartilsabstand (engl. Interquartile Range, IQR). Hier ist ein einfaches Zahlenbeispiel: {3,1,5,3,6,7,2,9}. Wir sortieren diese Zahlenfolge, um {1,2,3,3,5,6,7,9} zu erhalten. Das 25%-Perzentil liegt bei 2,5 und das 75%-Perzentil bei 6,5, sodass der Interquartilsabstand 6,5 – 2,5 = 4 beträgt. Die Softwareprogramme können leicht unterschiedliche Ansätze haben, die dann unterschiedliche Ergebnisse hervorbringen (siehe folgenden Hinweis); in der Regel fallen diese Unterschiede jedoch gering aus.

Bei sehr großen Datensätzen kann die Berechnung der genauen Perzentile rechnerisch sehr aufwendig sein, da dazu alle Datenwerte sortiert werden müssen. Maschinelle Lern- und Statistikprogramme verwenden spezielle Algorithmen, wie [Zhang-Wang-2007], um einen Näherungswert für ein Perzentil zu erhalten, der sehr schnell berechnet werden kann und eine gewisse Genauigkeit gewährleistet.

Perzentile: Genaue Definition Wenn wir eine gerade Anzahl an Werten haben (n ist gerade), dann ist das Perzentil im Sinne der vorhergehenden Definition mehrdeutig. Tatsächlich könnten wir jeden Wert zwischen der Ordnungsstatistik x(j) und x(j + 1) nehmen, wobei j Folgendes erfüllt:
In formaler Hinsicht ist das Perzentil ein gewichteter Durchschnitt: Perzentil(P) = (1 – w)x(j) + wx(j+1)
für ein gegebenes Gewicht w zwischen 0 und 1. In den verschiedenen verfügbaren Statistikprogrammen gibt es leicht unterschiedliche Ansätze für die Auswahl von w. Tatsächlich bietet die R-Funktion quantile neun verschiedene Alternativen zur Berechnung des Quantils. Von kleinen Datensätzen abgesehen, brauchen Sie sich in der Regel keine Gedanken darüber zu machen, wie ein Perzentil genau berechnet wird. In Python unterstützt das numpy.quantile fünf Ansätze, wobei die lineare Interpolation voreingestellt ist.
Praktische Statistik für Data Scientists

Подняться наверх