Читать книгу Introducción al Machine Learning con MATLAB - Erik Cuevas Jiménez - Страница 21
1.9. Visualización de datos
ОглавлениеEl objetivo principal de las técnicas de visualización de datos consistirá en partir de información compleja y presentarla en un formato simple, y, de esta manera, entender mejor la información disponible. La visualización de datos permite su inspección y una mejor comprensión de esta. Existen otros motivos para usar la visualización de datos. Incluyen los siguientes:
• Explicar los datos o poner los datos en contexto
• Resolver un problema específico (por ejemplo, identificar áreas problemáticas dentro de un modelo de negocio particular)
• Resaltar o ilustrar datos que, de otro modo, serían invisibles (como aislar valores atípicos existentes en los datos)
• Destacar la tendencia de los datos, como los volúmenes de ventas potenciales
La visualización se utiliza en casi todos los pasos del proceso del aprendizaje máquina, dentro de pasos obvios como la preparación y exploración de datos, pero también puede ser aprovechada durante la recopilación de datos, durante el entrenamiento del modelo y en la etapa final de evaluación de resultados, para identificar elementos relevantes.
El conjunto de datos sobre la flor de iris es una colección de observaciones multivariante para cuantificar la variación morfológica de las tres especies relacionadas de flores de iris: setosa, versicolor y virginica. El conjunto de datos tiene las mediciones del largo y ancho del sépalo y el pétalo de la flor de iris. En la figura 1.7 se presenta la estructura de la flor de iris. Tomaremos este conjunto de datos para explorarlos visualmente, debido a que es un referente en el área del aprendizaje máquina y estadística.
Figura 1.7. Partes de la flor de iris.
A continuación, se muestran diferentes formas de visualizar las cuatro características (longitud del sépalo, ancho del sépalo, longitud del pétalo y ancho del pétalo) de 150 observaciones de las flores de iris. El cargado en memoria del conjunto de datos se realiza con el siguiente comando:
load fisheriris.mat
El comando carga en la memoria dos variables: la matriz llamada meas y una celda, species. La matriz meas tiene 4 columnas relativas a las características y 150 filas con las 150 observaciones registradas. La celda species tiene los nombres a la cual cada observación pertenece. En el algoritmo 1.5 se carga el conjunto de datos de la flor de iris y despliegan todas las observaciones por característica. En la figura 1.8 se grafican los valores de las 150 observaciones de las diferentes características del conjunto de datos:
% Autores: Erik Cuevas, Omar Avalos, Arturo Valdivia y Primitivo Díaz
% Se carga el conjunto de observaciones
load fisheriris.mat
% Se define cuántas observaciones tiene el conjunto de datos
N=size(meas,1);
% Se define el vector en el eje x
t=1:N
% Se grafican las observaciones en sus diferentes características
plot(t,meas)
legend('Long. sépalo','Ancho sépalo','Long. pétalo','Ancho pétalo')
Algoritmo 1.5. Ejemplo del uso de la función plot en MATLAB.
Figura 1.8. Gráfico de las 150 observaciones de flores de iris y sus 4 características.