Читать книгу Estadística práctica para ciencia de datos con R y Python - Peter Bruce - Страница 31
Percentiles y diagramas de caja
ОглавлениеEn "Estimación basada en percentiles" en la página 16, exploramos cómo se pueden utilizar los percentiles para medir la dispersión de los datos. Los percentiles también son útiles para extraer un resumen de toda la distribución. Es habitual informar los cuartiles (percentiles 25, 50 y 75) y los deciles (percentiles 10, 20,…, 90). Los percentiles son especialmente indicados para extraer el resumen de las colas (tails) (partes de los extremos del rango) de la distribución. La cultura popular ha acuñado el término de los uno por ciento (one-percenters) para referirse a las personas con una riqueza superior al percentil 99.
La tabla 1.4 muestra algunos percentiles de la tasa de homicidios por estados. En R, esta información la facilita la función quantile:
En Python la proporciona el método quantile del marco de datos de pandas:
Tabla 1.4 Percentiles de tasa de homicidios por estados
La mediana es de 4 homicidios por cada 100 000 habitantes, aunque hay bastante variabilidad: el percentil 5 es solo 1.6 y el percentil 95 es 6.51.
Los diagramas de caja (boxplots), presentados por Tukey [Tukey, 1977], utilizan percentiles y permiten visualizar la distribución de datos de una forma rápida. La figura 1.2 muestra el diagrama de caja de la población por cada estado, que proporciona R:
pandas proporciona una serie de gráficos exploratorios básicos para el marco de datos. Uno de ellos es el diagrama de caja:
Figura 1.2 Diagrama de caja de la población por estados.
En este diagrama de caja, podemos ver de forma inmediata que la mediana de la población por estados es de alrededor de 5 millones, la mitad de los estados se encuentran entre aproximadamente 2 millones y 7 millones, y hay algunos valores atípicos de altos niveles de población. La parte superior e inferior del cuadro son los percentiles 75 y 25, respectivamente. La mediana se muestra mediante una línea horizontal dentro del cuadro. Las líneas discontinuas, denominadas bigotes (whiskers), se extienden desde las partes superior e inferior del cuadro para indicar el rango de la mayor parte de los datos. Hay muchas variaciones del diagrama de caja. Ver, por ejemplo, la documentación de la función boxplot de R [R-base, 2015]. Por defecto, la función R extiende los bigotes hasta el punto más alejado fuera de la caja, pero no van más allá de 1.5 veces el IQR. Matplotlib utiliza la misma implementación. Cualquier otro software puede usar una regla diferente.
Los datos que aparecen fuera de los bigotes se representan como puntos o círculos (a menudo considerados valores atípicos).