Читать книгу Estadística práctica para ciencia de datos con R y Python - Peter Bruce - Страница 7

CAPÍTULO 1 Análisis exploratorio de datos

Оглавление

Este capítulo se centra en el primer paso de cualquier proyecto de ciencia de datos: la exploración de los datos.

La estadística clásica se ocupó casi exclusivamente de la inferencia, un conjunto de procedimientos, a veces complejo, para sacar conclusiones sobre grandes poblaciones a partir de muestras de pequeño tamaño. En 1962, John W. Tukey (figura 1.1) propugnó una reforma de la estadística en su trabajo académico de investigación "The Future of Data Analysis" [Tukey, 1962]. Propuso una nueva disciplina científica llamada análisis de datos (data analysis) que incluía la inferencia estadística como un componente más. Tukey forjó vínculos con los colectivos profesionales de ingeniería e informática (acuñó los términos bit, abreviatura de dígito binario, y software), y sus principios originales son sorprendentemente duraderos y forman parte de los fundamentos de la ciencia de datos. El campo del análisis exploratorio de datos se estableció con el que es ahora un libro clásico de Tukey publicado en 1977: Exploratory Data Analysis [Tukey, 1977]. Tukey presentó diagramas sencillos (por ejemplo, diagramas de caja, diagramas de dispersión) que, junto con resúmenes estadísticos (media, mediana, cuantiles, etc.), ayudan a dibujar la imagen de un conjunto de datos.

Con la disponibilidad de forma inmediata de la capacidad de cálculo y el potente software de análisis de datos, el análisis exploratorio de datos ha evolucionado mucho más allá de lo que fue su alcance original. Los impulsores clave de esta disciplina han sido el rápido desarrollo de nuevas tecnologías, el acceso a una mayor cantidad de datos y más importantes, así como la mayor utilización del análisis cuantitativo en numerosas disciplinas. David Donoho, profesor de estadística de la Universidad de Stanford y exalumno de Tukey, es autor de un excelente artículo inspirado en su exposición para el taller del centenario del nacimiento de Tukey (Tukey Centennial) en Princeton, Nueva Jersey [Donoho, 2015]. Donoho localiza la génesis de la ciencia de datos en el trabajo pionero de Tukey sobre el análisis de datos.


Figura 1.1 John Tukey, el eminente estadístico cuyas ideas, que desarrolló hace más de 50 años, constituyen la base de la ciencia de datos.

Estadística práctica para ciencia de datos con R y Python

Подняться наверх