Читать книгу Estadística práctica para ciencia de datos con R y Python - Peter Bruce - Страница 26

Estimación basada en percentiles

Оглавление

Un enfoque diferente para estimar la dispersión se centra en observar la distribución de los datos ordenados. Los estadísticos que tienen como base los datos ordenados (clasificados) se denominan estadísticos de orden (order statistics). La medida más elemental es el rango (range): la diferencia entre los números de mayor y menor valor. Es de utilidad conocer los valores mínimos y máximos en sí, además de práctico, para identificar valores atípicos, pero el rango es extremadamente sensible a los valores atípicos y no es muy útil como medida general de la dispersión de datos.

Para evitar la sensibilidad a los valores atípicos, podemos observar el rango de los datos después de eliminar valores de cada extremo. Formalmente, este tipo de estimaciones se basan en diferencias entre percentiles (percentiles). En un conjunto de datos, el percentil P es un valor tal que al menos el P por ciento de los valores toman este valor o un valor inferior y al menos (100 - P) por ciento de los valores toman este valor o un valor superior. Por ejemplo, para encontrar el percentil 80, ordenamos los datos. Luego, comenzando por el valor más pequeño, continuamos hasta el 80% del recorrido para llegar al mayor valor. Hay que tener en cuenta que la mediana es lo mismo que el percentil 50. El percentil es esencialmente lo mismo que el cuantil (quantile), con los cuantiles referenciados por porcentajes (por lo que el cuantil 0.8 es lo mismo que el percentil 80).

Una medida habitual de la variabilidad es la diferencia entre el percentil 25 y el percentil 75, al que se llama rango intercuartílico (interquartile range) (o IQR). Veamos un sencillo ejemplo: {3,1,5,3,6,7,2,9}. Los ordenamos para obtener {1,2,3,3,5,6,7,9}. El percentil 25 está en 2.5 y el percentil 75 está en 6.5, por lo que el rango intercuartílico es 6.5 – 2.5 = 4. El software puede tener enfoques ligeramente diferentes que producen diferentes respuestas (consultar el consejo que aparece más abajo). Normalmente, estas diferencias son mínimas.

Para conjuntos de datos muy grandes, calcular percentiles exactos puede ser muy costoso desde el punto de vista del cálculo, ya que requiere ordenar todos los valores de los datos. El aprendizaje automático y el software estadístico utilizan algoritmos especiales [Zhang-Wang, 2007] para obtener un percentil aproximado que se puede calcular con mucha rapidez y tiene garantizada una cierta precisión.


Estadística práctica para ciencia de datos con R y Python

Подняться наверх