Читать книгу Estadística práctica para ciencia de datos con R y Python - Peter Bruce - Страница 22

На сайте Литреса книга снята с продажи.

Ejemplo: estimaciones de localización de la población y tasas de homicidios

La tabla 1.2 muestra las primeras filas del conjunto de datos que contienen la población y las tasas de homicidios (en unidades de homicidios por cada 100 000 habitantes y por año) para cada estado de EE. UU. (censo de 2010).

Tabla 1.2 Algunas filas de data.frame de la situación de la población y la tasa de homicidios por estados

Utilizamos R para calcular la media, la media truncada y la mediana de la población:

Para calcular la media y la mediana con Python, podemos emplear los métodos pandas del marco de datos. La media truncada requiere la función trim_mean de scipy.stats:

La media es mayor que la media truncada, que es mayor que la mediana.

Esto se debe a que la media truncada excluye los cinco estados más grandes y más pequeños (trim=0.1 ignora el 10% de cada extremo). Si queremos calcular la tasa de homicidios promedio para el país, necesitamos usar una media o mediana ponderadas para dar cuenta de las diferentes poblaciones de los estados. Dado que el software básico de R no tiene una función para la mediana truncada, necesitamos instalar el paquete matrixStats:

Con NumPy podemos disponer de la media ponderada. Para la mediana ponderada, podemos usar el paquete especializado wquantiles (https://pypi.org/project/wquantiles/):

En este caso, la media ponderada y la mediana ponderada son aproximadamente iguales.

Ideas clave

• La métrica básica para la localización es la media, pero puede ser sensible a valores extremos (valores atípicos).

• Otras métricas (mediana, media truncada) son menos sensibles a valores atípicos y a distribuciones inusuales y, por lo tanto, son más robustas.

Estadística práctica para ciencia de datos con R y Python

Подняться наверх