Читать книгу Ciencia de datos - Брендан Тирни - Страница 7

Оглавление

PREFACIO

El objetivo de la ciencia de datos es mejorar la toma de decisiones basándolas en información extraída de grandes conjuntos de datos. Como campo de actividad, la ciencia de datos abarca un conjunto de principios, definiciones de problemas, algoritmos y procesos para extraer patrones no obvios y útiles de grandes conjuntos de datos. Está estrechamente relacionada con los campos de la minería de datos y el aprendizaje automático, pero tiene un alcance más amplio. Hoy, la ciencia de datos impulsa la toma de decisiones en casi todos los sectores de las sociedades modernas. Algunas de las formas en que la ciencia de datos puede afectar tu vida diaria incluyen determinar: qué anuncios te presentan en línea; qué películas, libros y conexiones de amigos te recomiendan; qué correos electrónicos se filtran en tu carpeta de correo no deseado; qué ofertas recibes cuando renuevas tu servicio de teléfono celular; el costo de tu prima de seguro de salud; la secuencia y la sincronización de los semáforos en tu área; cómo se diseñaron los medicamentos que puedes necesitar; y qué lugares en tu ciudad son monitoreados por la policía.

El crecimiento en el uso de la ciencia de datos en nuestras sociedades está impulsado por la aparición del big data y las redes sociales, la aceleración de la potencia informática, la reducción masiva en el costo de la memoria de la computadora y el desarrollo de métodos más potentes para el análisis y modelado de datos, como el aprendizaje profundo. Todos estos factores juntos hacen que nunca haya sido tan fácil para las organizaciones recopilar, almacenar y procesar datos. Al mismo tiempo, estas innovaciones técnicas y la aplicación más amplia de la ciencia de datos hacen que los desafíos éticos relacionados con el uso de datos y la privacidad individual nunca han sido tan apremiantes. El objetivo de este libro es proporcionar una introducción a la ciencia de datos que cubra los elementos esenciales del campo de forma suficientemente profunda para permitir una comprensión basada en principios del mismo.

El capítulo 1 presenta el campo de la ciencia de datos y proporciona una breve historia de cómo se ha desarrollado y evolucionado. También examina por qué la ciencia de datos es importante hoy y algunos de los factores que impulsan su adopción. El capítulo termina revisando y desacreditando algunos de los mitos asociados con la ciencia de datos. El capítulo 2 presenta conceptos fundamentales relacionados con los datos. También describe las etapas comunes en un proyecto de ciencia de datos: comprensión del negocio, comprensión de los datos, preparación de los datos, modelado, evaluación y despliegue. El capítulo 3 se centra en la infraestructura de datos y los desafíos planteados por el big data y la integración de datos de múltiples fuentes. Un aspecto de una infraestructura de datos típica que puede ser desafiante es que los datos en las bases de datos y los almacenes de datos a menudo residen en servidores diferentes de los servidores utilizados para su análisis. Como consecuencia, cuando se manejan grandes conjuntos de datos, se puede pasar una gran cantidad de tiempo moviendo datos entre los servidores en los que está la base de datos o el almacén de datos y los servidores utilizados para el análisis de datos y el aprendizaje automático. El capítulo 3 comienza describiendo una infraestructura de ciencia de datos típica para una organización y algunas de las soluciones emergentes para el desafío de mover grandes conjuntos de datos dentro de una infraestructura de datos, que incluyen el uso del aprendizaje automático en la base de datos, el uso de Hadoop para el almacenamiento y procesamiento de datos, y el desarrollo de sistemas de bases de datos híbridas que combinan a la perfección el software de base de datos tradicional y las soluciones tipo Hadoop. El capítulo concluye destacando algunos de los desafíos para integrar datos de toda una organización en una representación unificada que sea adecuada para el aprendizaje automático. El capítulo 4 presenta el campo del aprendizaje automático y explica algunos de los algoritmos y modelos de aprendizaje automático más populares, incluidas las redes neuronales, el aprendizaje profundo y los modelos de árbol de decisión. El capítulo 5 se enfoca en vincular la experiencia de aprendizaje automático con problemas del mundo real al revisar una variedad de problemas comerciales estándar y describir cómo pueden resolverse mediante soluciones de aprendizaje automático. El capítulo 6 revisa las implicaciones éticas de la ciencia de datos, los desarrollos recientes en la regulación de datos y algunos de los nuevos enfoques computacionales para preservar la privacidad de las personas dentro del proceso de ciencia de datos. Finalmente, el capítulo 7 describe algunas de las áreas donde la ciencia de datos tendrá un impacto significativo en el futuro cercano y establece algunos de los principios que son importantes para determinar si un proyecto de ciencia de datos tendrá éxito.

Подняться наверх