Читать книгу Estadística práctica para ciencia de datos con R y Python - Peter Bruce - Страница 51

Visualización de varias variables

Оглавление

Los tipos de gráficos que se utilizan para comparar dos variables (diagramas de dispersión, agrupación hexagonal y diagramas de caja) se extienden fácilmente a más variables mediante la noción de acondicionamiento (conditioning). Como ejemplo, veamos la anterior figura 1.8, que muestra la relación entre las superficies en pies cuadrados de las viviendas terminadas y sus valores de tasación fiscal. Observamos que parece haber un grupo de viviendas que tienen un valor fiscal más alto por pie cuadrado. Profundizando, la figura 1.12 explica el efecto de la localización al representar los datos para un conjunto de códigos postales. Ahora el panorama es mucho más claro: el valor fiscal es mucho más alto en algunos códigos postales (98105, 98126) que en otros (98108, 98188). Esta disparidad da lugar a los conglomerados observados en la figura 1.8.

Creamos la figura 1.12 usando ggplot2 y el concepto de facetas (facets) o de una variable condicionante (en este caso, el código postal):


Utilizamos las funciones facet_wrap y facet_grid de ggplot para especificar la variable condicionante.


Figura 1.12 Valor de tasación fiscal en relación con la superficie terminada en pies cuadrados por código postal.

La mayoría de los paquetes de Python utilizan Matplotlib para sus visualizaciones. Si bien en principio es posible crear gráficos facetados usando Matplotlib, el código puede complicarse. Afortunadamente, es posible crear gráficos de forma sencilla mediante seaborn:


Utilizamos los argumentos col y row para especificar las variables condicionantes. Para una sola variable condicionante, utilizamos col junto con col_wrap para empaquetar los gráficos facetados en varias filas.

El método map llama a la función hexbin con los subconjuntos para los diferentes códigos postales del conjunto de datos original. extent define los límites de los ejes x e y.

El concepto de variables condicionantes en un sistema gráfico lo iniciaron los gráficos Trellis (Trellis graphics), desarrollados por Rick Becker y Bill Cleveland entre otros, en los Bell Labs [Trellis-Graphics]. Esta idea se ha extendido a varios sistemas gráficos modernos, como son los paquetes lattice [lattice] y ggplot2 de R y los módulos seaborn [seaborn] y Bokeh [bokeh] de Python. Las variables condicionantes también son parte integral de las plataformas de inteligencia empresarial como Tableau y Spotfire. Con la llegada de equipos con una gran potencia informática, las plataformas de visualización modernas han ido mucho más allá de lo que fueron los humildes comienzos del análisis exploratorio de datos. Sin embargo, los conceptos y herramientas clave desarrolladas hace medio siglo (por ejemplo, los sencillos diagramas de caja) todavía constituyen la base de estos sistemas.

Ideas clave

• La agrupación hexagonal y los gráficos de contorno son herramientas útiles que permiten el examen gráfico de dos variables numéricas a la vez, sin que nos abrumen las grandes cantidades de datos.

• Las tablas de contingencia son la herramienta estándar para observar los recuentos de dos variables categóricas.

• Los diagramas de caja y los diagramas de violín nos permiten representar una variable numérica frente a una variable categórica.

Estadística práctica para ciencia de datos con R y Python

Подняться наверх