Читать книгу Estadística práctica para ciencia de datos con R y Python - Peter Bruce - Страница 45

Diagramas de dispersión

Оглавление

La forma tradicional de visualizar la relación entre dos variables de datos que hemos registrado es con un diagrama de dispersión. En el eje x se representa una variable y en el eje y otra, y cada punto del gráfico es un registro. En la figura 1.7 se muestra un gráfico de la correlación entre las rentabilidades diarias de ATT y Verizon. La visualización se consigue en R con el comando:


El mismo gráfico se puede generar en Python usando el método de dispersión de pandas:


Las rentabilidades tienen una relación positiva: mientras se agrupan alrededor del cero, la mayor parte de los días, las acciones suben o bajan conjuntamente (cuadrantes superior derecho e inferior izquierdo). Hay menos días en los que una acción baja significativamente mientras que la otra sube, o viceversa (cuadrantes inferior derecho y superior izquierdo).

Si bien el diagrama de la figura 1.7 muestra solo 754 puntos de datos, ya es obvio lo difícil que es identificar detalles en el centro del diagrama. Más adelante veremos cómo la adición de transparencia a los puntos, o el uso de agrupaciones hexagonales y diagramas de densidad, puede ayudar a encontrar una estructura complementaria en los datos.


Figura 1.7 Diagrama de dispersión de la correlación entre las rentabilidades de ATT y Verizon.

Ideas clave

• El coeficiente de correlación mide el grado en que dos variables emparejadas (por ejemplo, la altura y el peso de los individuos) están asociadas entre sí.

• Cuando los valores altos de v1 acompañan a los valores altos de v2, v1 y v2 se asocian positivamente.

• Cuando los valores altos de v1 acompañan a los valores bajos de v2, v1 y v2 se asocian negativamente.

• El coeficiente de correlación es una métrica estandarizada, por lo que siempre varía de –1 (correlación negativa perfecta) a +1 (correlación positiva perfecta).

• Un coeficiente de correlación de cero indica que no hay correlación, pero hay que tener en cuenta que las disposiciones aleatorias de datos producirán valores tanto positivos como negativos para el coeficiente de correlación simplemente por casualidad.

Estadística práctica para ciencia de datos con R y Python

Подняться наверх