Читать книгу Estadística práctica para ciencia de datos con R y Python - Peter Bruce - Страница 28

Ejemplo: estimaciones de variabilidad de la población estatal

Оглавление

La tabla 1.3 (repetición de la tabla 1.2 para hacerlo más cómodo) muestra las primeras filas del conjunto de datos que contienen las tasas de población y de los homicidios para cada estado.

Tabla 1.3 Algunas filas de data.frame de la situación de la población y la tasa de homicidios por estados


Utilizando las funciones integradas de R para la desviación estándar, el rango intercuartílico (IQR) y la desviación absoluta mediana de la mediana (MAD), podemos calcular las estimaciones de variabilidad para los datos de la población estatal:


El marco de datos de pandas proporciona métodos para calcular la desviación estándar y los cuantiles. Usando los cuantiles, podemos determinar fácilmente el IQR. Para la MAD robusta, usamos la función robust.scale.mad del paquete statsmodels:


La desviación estándar es casi dos veces mayor que la MAD (en R, por defecto, la escala de la MAD se ajusta para estar en la misma escala que la de la media). Este hecho no es sorprendente, ya que la desviación estándar es sensible a valores atípicos.

Ideas clave

• La varianza y la desviación estándar son los estadísticos de variabilidad más difundidos y de los que más se informa de manera rutinaria.

• Ambos son sensibles a los valores atípicos.

• Entre las métricas más robustas se encuentran la desviación absoluta media, la desviación absoluta mediana de la mediana y los percentiles (cuantiles).

Estadística práctica para ciencia de datos con R y Python

Подняться наверх