Читать книгу Introducción al Machine Learning con MATLAB - Erik Cuevas Jiménez - Страница 9

1.2. Conceptos sobre datos

Оглавление

Como se mencionó anteriormente, los métodos de aprendizaje máquina aprenden a partir de los ejemplos. Resulta importante tener una buena comprensión de los datos de entrada y la variada terminología utilizada al describir los datos. Los datos pueden estructurarse en filas y columnas, como una tabla de base de datos o como una hoja de cálculo. Estos son conocidos como «estructura tradicional de datos», y son comunes en el campo del aprendizaje máquina.

Los conceptos básicos para datos del aprendizaje máquina se definen a continuación:

Observación: es la entidad más pequeña, con propiedades de interés para un estudio que puede ser registrado.

Características: son las propiedades o atributos de las observaciones que pueden ser útiles para el aprendizaje.

Tipo de datos: las características tienen un tipo de datos. Estos pueden ser de valor real o entero, o pueden tener un valor categórico u ordinal.

Conjuntos de datos: una colección de observaciones es un conjunto de datos y, cuando se trabaja con métodos de aprendizaje máquina, generalmente se requieren algunos conjuntos de datos para diferentes propósitos.

Datos de entrenamiento: conforman un conjunto de datos que se incorpora al algoritmo de aprendizaje máquina para entrenar al modelo.

Datos de prueba: constituyen un conjunto de datos utilizado para validar la precisión del modelo, pero que no se emplea para entrenar al modelo. Se lo conoce también como «conjunto de datos de validación».

Además de los datos mencionados con anterioridad, existen otros, como imágenes, vídeos y texto. Estos son llamados «datos no estructurados», para poder ser aplicados a métodos de aprendizaje máquina, los cuales deben ser transformados a una forma estructurada de datos. Los datos no estructurados no se consideran en este libro.

Introducción al Machine Learning con MATLAB

Подняться наверх