Читать книгу Estadística práctica para ciencia de datos con R y Python - Peter Bruce - Страница 16

Estimación de la localización

Оглавление

Las variables, con los datos medidos o procedentes de recuentos, pueden tener miles de valores distintos. Un paso fundamental para explorar los datos es obtener un "valor típico" para cada característica (variable): una estimación de dónde se encuentra la mayoría de los datos (es decir, su tendencia central).

Términos clave de la estimación de la localización

Media

Suma de todos los valores dividida por el número de valores.

Sinónimos

promedio

Media ponderada

Suma de todos los valores multiplicados por cada ponderación y dividida por la suma de las ponderaciones.

Sinónimo

promedio ponderado

Mediana

Valor tal que la mitad del número de datos se encuentra por encima y la otra mitad por debajo de dicho valor.

Sinónimo

Percentil 50

Percentil

Valor tal que el P por ciento de los datos se encuentra por debajo del mismo.

Sinónimo

cuantil

Mediana ponderada

Valor tal que la mitad de la suma de las ponderaciones se encuentra por encima y la otra mitad por debajo de los datos ordenados.

Media recortada

El promedio de todos los valores después de eliminar un número fijo de valores extremos.

Sinónimo

media truncada

Robusto

Insensible a valores extremos.

Sinónimo

resistente

Atípico

Valor de un dato que es muy diferente de la mayoría de los valores de datos.

Sinónimo

valor extremo

A primera vista, resumir los datos puede parecer bastante trivial: simplemente hay que extraer la media (mean) de los datos. De hecho, si bien la media es fácil de calcular y conveniente de usar, es posible que no siempre sea la mejor medida para representar un valor central. Por esta razón, los estadísticos han desarrollado y promovido varias estimaciones alternativas a la media.


Métricas y estimaciones

Los estadísticos a menudo utilizan el término estimación (estimate) para referirse a un valor calculado a partir de los datos disponibles, para establecer una distinción entre lo que vemos a partir de los datos y el verdadero estado teórico o exacto de las cosas. Es más probable que los científicos de datos y los analistas de negocios se refieran a este valor como métrica (metric). La diferencia refleja el enfoque de la estadística frente al de la ciencia de datos. Hay que tener en cuenta que la explicación de la incertidumbre se encuentra en el corazón de la disciplina de la estadística, mientras que el foco de la ciencia de datos son los objetivos concretos de las organizaciones o de las empresas. Por lo tanto, los estadísticos estiman y los científicos de datos miden.

Estadística práctica para ciencia de datos con R y Python

Подняться наверх