Читать книгу Estadística práctica para ciencia de datos con R y Python - Peter Bruce - Страница 22
Ejemplo: estimaciones de localización de la población y tasas de homicidios
ОглавлениеLa tabla 1.2 muestra las primeras filas del conjunto de datos que contienen la población y las tasas de homicidios (en unidades de homicidios por cada 100 000 habitantes y por año) para cada estado de EE. UU. (censo de 2010).
Tabla 1.2 Algunas filas de data.frame de la situación de la población y la tasa de homicidios por estados
Utilizamos R para calcular la media, la media truncada y la mediana de la población:
Para calcular la media y la mediana con Python, podemos emplear los métodos pandas del marco de datos. La media truncada requiere la función trim_mean de scipy.stats:
La media es mayor que la media truncada, que es mayor que la mediana.
Esto se debe a que la media truncada excluye los cinco estados más grandes y más pequeños (trim=0.1 ignora el 10% de cada extremo). Si queremos calcular la tasa de homicidios promedio para el país, necesitamos usar una media o mediana ponderadas para dar cuenta de las diferentes poblaciones de los estados. Dado que el software básico de R no tiene una función para la mediana truncada, necesitamos instalar el paquete matrixStats:
Con NumPy podemos disponer de la media ponderada. Para la mediana ponderada, podemos usar el paquete especializado wquantiles (https://pypi.org/project/wquantiles/):
En este caso, la media ponderada y la mediana ponderada son aproximadamente iguales.
Ideas clave
• La métrica básica para la localización es la media, pero puede ser sensible a valores extremos (valores atípicos).
• Otras métricas (mediana, media truncada) son menos sensibles a valores atípicos y a distribuciones inusuales y, por lo tanto, son más robustas.