Читать книгу Introducción al Machine Learning con MATLAB - Erik Cuevas Jiménez - Страница 23
Diagrama de caja
ОглавлениеUn diagrama de caja y bigotes, o simplemente un diagrama de caja, es un gráfico basado en cuartiles, mediante el cual se visualiza la distribución de un conjunto de datos. Está compuesto por un rectángulo «caja» y dos brazos «bigotes».
Figura 1.10. Partes del diagrama de caja.
Los diagramas de caja son una forma útil de graficar datos divididos en cuatro cuartiles, cada uno con igual cantidad de valores. Donde Q1 es la mediana de la mitad menor de los datos, Q2 es la mediana de todos los datos y Q3 es la mediana de la mitad mayor de los datos. Adicionalmente, el rango intercuartil (IRQ) es la diferencia entre Q3 y Q1. En el gráfico de caja, los valores atípicos son más pequeños o grandes que los extremos del diagrama de caja. En este, no se grafica la frecuencia ni se muestran las estadísticas individuales, pero en ellos podemos ver claramente dónde se encuentra la mitad de los datos. Constituye un buen diagrama para analizar la asimetría en los datos.
En el algoritmo 1.7 se presentan los diagramas de caja de las características 1, 2, 3 y 4, que corresponden, respectivamente, a la longitud del sépalo (1), el ancho del sépalo, la longitud del pétalo y el ancho del pétalo. En la figura 1.11 se muestran diagramas de caja con las características 1, 2, 3 y 4:
% Autores: Erik Cuevas, Omar Avalos, Arturo Valdivia y Primitivo Díaz
% Se carga el conjunto de observaciones
load fisheriris.mat
% Se genera y despliega el diagrama de caja
% por cada característica de las 150 observaciones
boxplot(meas)
Algoritmo 1.7. Ejemplo del uso de la función boxplot en MATLAB.
Figura 1.11. Diagramas de caja de las cuatro características de las observaciones a las flores de iris.