Читать книгу Estadística práctica para ciencia de datos con R y Python - Peter Bruce - Страница 16
Estimación de la localización
ОглавлениеLas variables, con los datos medidos o procedentes de recuentos, pueden tener miles de valores distintos. Un paso fundamental para explorar los datos es obtener un "valor típico" para cada característica (variable): una estimación de dónde se encuentra la mayoría de los datos (es decir, su tendencia central).
Términos clave de la estimación de la localización
Media
Suma de todos los valores dividida por el número de valores.
Sinónimos
promedio
Media ponderada
Suma de todos los valores multiplicados por cada ponderación y dividida por la suma de las ponderaciones.
Sinónimo
promedio ponderado
Mediana
Valor tal que la mitad del número de datos se encuentra por encima y la otra mitad por debajo de dicho valor.
Sinónimo
Percentil 50
Percentil
Valor tal que el P por ciento de los datos se encuentra por debajo del mismo.
Sinónimo
cuantil
Mediana ponderada
Valor tal que la mitad de la suma de las ponderaciones se encuentra por encima y la otra mitad por debajo de los datos ordenados.
Media recortada
El promedio de todos los valores después de eliminar un número fijo de valores extremos.
Sinónimo
media truncada
Robusto
Insensible a valores extremos.
Sinónimo
resistente
Atípico
Valor de un dato que es muy diferente de la mayoría de los valores de datos.
Sinónimo
valor extremo
A primera vista, resumir los datos puede parecer bastante trivial: simplemente hay que extraer la media (mean) de los datos. De hecho, si bien la media es fácil de calcular y conveniente de usar, es posible que no siempre sea la mejor medida para representar un valor central. Por esta razón, los estadísticos han desarrollado y promovido varias estimaciones alternativas a la media.
Métricas y estimaciones
Los estadísticos a menudo utilizan el término estimación (estimate) para referirse a un valor calculado a partir de los datos disponibles, para establecer una distinción entre lo que vemos a partir de los datos y el verdadero estado teórico o exacto de las cosas. Es más probable que los científicos de datos y los analistas de negocios se refieran a este valor como métrica (metric). La diferencia refleja el enfoque de la estadística frente al de la ciencia de datos. Hay que tener en cuenta que la explicación de la incertidumbre se encuentra en el corazón de la disciplina de la estadística, mientras que el foco de la ciencia de datos son los objetivos concretos de las organizaciones o de las empresas. Por lo tanto, los estadísticos estiman y los científicos de datos miden.