Читать книгу Estadística práctica para ciencia de datos con R y Python - Peter Bruce - Страница 10

Datos rectangulares

Оглавление

El marco de referencia típico para un análisis en ciencia de datos es el objeto de datos rectangulares (rectangular data), como puede ser una hoja de cálculo o una tabla de base de datos.

Datos rectangulares (rectangular data) es el término general asociado a una matriz bidimensional con filas que indican registros (casos) y columnas que indican características (variables). El marco de datos (data frame) es el formato específico en R y Python. Los datos no siempre tienen esta apariencia al principio: los datos no estructurados (por ejemplo, texto) deben procesarse y manipularse para que se puedan representar como un conjunto de características en la matriz de datos rectangulares (consultar "Elementos de datos estructurados" en la página 2). Para la mayor parte de las tareas de análisis y modelado de datos, los datos de las bases de datos relacionales deben extraerse y colocarse en una sola tabla.

Términos clave de los datos rectangulares

Marco de datos

Los datos rectangulares (como puede ser una hoja de cálculo) son la estructura básica de datos para los modelos estadísticos y de aprendizaje automático.

Característica

Una columna de una tabla se denomina generalmente característica (feature).

Sinónimos

atributo, entrada, predictor, variable

Resultado

Muchos proyectos de ciencia de datos implican pronosticar un resultado (outcome), a menudo un resultado de sí/no (en la tabla 1.1, es si "la subasta ha sido competitiva o no"). A veces, las características (features) se utilizan para pronosticar el resultado (outcome) de un estudio.

Sinónimos

variable dependiente, respuesta, objetivo, salida

Registros

A una fila dentro de una tabla se le denomina generalmente registro (register).

Sinónimos

caso, ejemplo, instancia, observación, patrón, muestra

Tabla 1.1 Típico formato del marco de datos


En la tabla 1.1, hay una combinación de datos medidos o contabilizados (por ejemplo, duración y precio) y datos categóricos (por ejemplo, categoría y divisa). Como se ha mencionado anteriormente, una forma especial de variable categórica es una variable binaria (sí/no o 0/1), como se ve en la columna de la derecha en la tabla 1.1, una variable indicadora que muestra si una subasta ha sido competitiva (si ha tenido varios postores) o no. Esta variable indicadora también resulta ser una variable de resultado (outcome), cuando el escenario es pronosticar si una subasta es competitiva o no.

Estadística práctica para ciencia de datos con R y Python

Подняться наверх