Читать книгу Estadística práctica para ciencia de datos con R y Python - Peter Bruce - Страница 50

Datos categóricos y numéricos

Оглавление

Los diagramas de caja (consultar "Percentiles y diagramas de caja" en la página 20) son una forma sencilla de comparar visualmente las distribuciones de una variable numérica agrupada de acuerdo con una variable categórica. Por ejemplo, es posible que deseemos comparar cómo varía el porcentaje de retrasos en los vuelos entre las aerolíneas. La figura 1.10 muestra el porcentaje de vuelos que se retrasaron en un mes en el que el retraso lo controlaban las aerolíneas:


El método boxplot de pandas toma el argumento by que divide el conjunto de datos en grupos y crea los diagramas de caja individuales:



Figura 1.10 Diagrama de caja del porcentaje de retrasos por aerolínea.

Alaska se destaca por tener la menor cantidad de retrasos, mientras que American tiene la mayor cantidad de retrasos: el cuartil inferior de American está más alto que el cuartil superior de Alaska.

El diagrama de violín (violin plot), introducido por [Hintze-Nelson, 1998], es una mejora del diagrama de caja y representa la estimación de la densidad, con la densidad asociada al eje y. Se obtiene la imagen especular del diagrama de densidad, volcando a continuación ambas imágenes. La forma resultante se rellena, creando una imagen que se asemeja a un violín. La ventaja de un diagrama de violín es que puede mostrar matices en la distribución que no son perceptibles en un diagrama de caja. Por otro lado, el diagrama de caja muestra más claramente los valores atípicos de los datos. En ggplot2, la función geom_violin se puede usar para crear un diagrama de violín de la siguiente manera:


Los diagramas de violín están disponibles con el método violinplot del paquete seaborn:


El diagrama correspondiente se muestra en la figura 1.11. El diagrama del violín muestra una concentración en la distribución cercana a cero para Alaska y, en menor medida, para Delta. Este fenómeno no es tan obvio en el diagrama de caja. Podemos combinar el diagrama de violín con el diagrama de caja agregando geom_boxplot al diagrama (aunque su funcionamiento mejora cuando se presenta en color).


Figura 1.11 Diagrama de violín del porcentaje de retrasos por aerolínea.

Estadística práctica para ciencia de datos con R y Python

Подняться наверх