Читать книгу Estadística práctica para ciencia de datos con R y Python - Peter Bruce - Страница 48

Agrupación hexagonal y contornos (representación numérica frente a datos numéricos)

Оглавление

Los diagramas de dispersión son apropiados cuando hay un número relativamente pequeño de valores de datos. La gráfica de las rentabilidades de las acciones en la figura 1.7 solo involucra aproximadamente a 750 puntos. Para conjuntos de datos con cientos de miles o millones de registros, un diagrama de dispersión será demasiado denso, por lo que necesitamos visualizar la relación de un modo diferente. Para ilustrarlo, consideremos el conjunto de datos kc_tax, que contiene los valores tasados por impuestos para propiedades residenciales en el condado de King, Washington. Para centrarnos en la parte principal de los datos, eliminamos las residencias muy caras y muy pequeñas o muy grandes utilizando la función subset:


En pandas, filtramos el conjunto de datos de la siguiente manera:


La figura 1.8 es un diagrama de agrupación hexagonal (hexagonal binning) de la relación entre la superficie terminada en pies cuadrados y el valor tasado por impuestos para las viviendas en el condado de King. En lugar de trazar puntos, que aparecerían como una nube oscura monolítica, agrupamos los registros en contenedores hexagonales y rellenamos los hexágonos con un color que indica el número de registros en ese contenedor. En este gráfico, la relación positiva entre los pies cuadrados y el valor de tasación fiscal es clara. Una característica interesante es que se muestran ligeramente bandas adicionales por encima de la banda principal (la más oscura) en la parte inferior, que indica los hogares que tienen la misma superficie en pies cuadrados que los de la banda principal pero un valor fiscal más alto.

La figura 1.8 la ha generado el potente paquete de R ggplot2, desarrollado por Hadley Wickham [ggplot2]. ggplot2 es una de las múltiples nuevas bibliotecas de software para el análisis visual exploratorio avanzado de datos. Consultar "Visualización de varias variables" en la página 43:


En Python, se puede disponer fácilmente de los diagramas de agrupación hexagonal utilizando el método hexbin del marco de datos de pandas:



Figura 1.8 Agrupación hexagonal para el valor de tasación fiscal en relación con la superficie terminada en pies cuadrados.

La figura 1.9 utiliza contornos superpuestos a un diagrama de dispersión para visualizar la relación entre dos variables numéricas. Los contornos son esencialmente un mapa topográfico con dos variables. Cada banda de contorno representa una densidad específica de puntos, que aumenta a medida que nos acercamos a un "pico". Este gráfico muestra una historia similar a la de la figura 1.8: hay un pico secundario "al norte" del pico principal. Este cuadro también se ha creado mediante ggplot2 con la función incorporada geom_density2d:


La función seaborn kdeplot de Python crea la gráfica de contorno:



Figura 1.9 Gráfico de contorno para el valor de tasación fiscal en relación con la superficie terminada en pies cuadrados.

Se utilizan otros tipos de gráficos para mostrar la relación entre dos variables numéricas, incluidos los mapas de calor (heat maps). Los mapas de calor, la agrupación hexagonal y los gráficos de contorno proporcionan una representación visual bidimensional de la densidad. En este sentido, son por su naturaleza semejantes a los histogramas y diagramas de densidad.

Estadística práctica para ciencia de datos con R y Python

Подняться наверх