Читать книгу Estadística práctica para ciencia de datos con R y Python - Peter Bruce - Страница 37

Exploración de datos binarios y categóricos

Оглавление

En el caso de los datos categóricos, las proporciones simples o porcentajes cuentan la historia de los datos.

Términos clave de la exploración de datos categóricos

Moda

Categoría o valor que ocurre con más frecuencia en un conjunto de datos.

Valor esperado

Cuando las categorías se pueden asociar con un valor numérico, el valor esperado proporciona un valor promedio basado en la probabilidad de ocurrencia de una categoría.

Gráficos de barras

Frecuencia o proporción de cada categoría representada en barras.

Gráficos en forma de tarta

Frecuencia o proporción de cada categoría representada en forma de cuña de un pastel.

Obtener el resumen de una variable binaria o una variable categórica con varias categorías es un asunto bastante fácil: sencillamente calculamos la proporción de 1 o las proporciones de las categorías importantes. Por ejemplo, la tabla 1.6 muestra el porcentaje de vuelos que han llegado con retraso a sus destinos como consecuencia de los retrasos en el aeropuerto de Dallas/Fort Worth en 2010. Los retrasos se clasifican como debidos a: factores bajo el control de la aerolínea, retrasos en el sistema de control del tráfico aéreo (CTA), el clima, la seguridad o las aeronaves que llegan tarde.

Tabla 1.6 Porcentaje de retrasos causados por el aeropuerto de Dallas/Fort Worth


Los gráficos de barras, que se ven a menudo en la prensa de gran difusión, son una herramienta visual muy utilizada para mostrar una única variable categórica. Las categorías se enumeran en el eje x y las frecuencias o porcentajes, en el eje y. La figura 1.5 muestra los retrasos por año en el aeropuerto de Dallas/Fort Worth (DFW), y se genera con la función R barplot:


pandas también soporta gráficos de barras para marcos de datos:



Figura 1.5 Gráfico de barras de retrasos de aerolíneas en el aeropuerto de DFW.

Hay que tener en cuenta que un gráfico de barras se parece a un histograma. En un gráfico de barras, el eje x representa diferentes categorías de una variable de tipo factor, mientras que, en un histograma, el eje x representa los valores de una sola variable en una escala numérica. En un histograma, las barras generalmente se muestran tocándose entre sí. Si hay espacios, estos indican valores ausentes en los datos. En un gráfico de barras, las barras se muestran separadas entre sí.

Los gráficos en forma de tarta son una alternativa a los gráficos de barras, aunque los estadísticos y los expertos en visualización de datos generalmente evitan los gráficos en forma de tarta por ser menos informativos visualmente (ver [Few, 2007]).


Estadística práctica para ciencia de datos con R y Python

Подняться наверх