Наука о данных
Реклама. ООО «ЛитРес», ИНН: 7719571260.
Оглавление
Брендан Тирни. Наука о данных
Предисловие
Благодарности
Глава 1. Что такое наука о данных?
Краткая история науки о данных
Где используется наука о данных?
Почему сейчас?
Разоблачение мифов
Глава 2. Что такое данные и что такое набор данных?
Перспективы данных
Данные накапливаются, мудрость – нет!
Процесс CRISP-DM
Глава 3. Экосистема науки о данных
Перемещение алгоритмов в данные
Подготовка и интеграция данных
Создание базовой аналитической таблицы
Глава 4. Основы машинного обучения
Обучение с учителем и без
Обучение моделей прогнозирования
Смещения в науке о данных
Оценка моделей: обобщение, а не запоминание
Выводы
Глава 5. Стандартные задачи науки о данных
Кто наши клиенты? (Кластеризация)
Мошенничество ли это? (Обнаружение аномалий)
Добавить картофель фри? (Поиск ассоциативных правил)
Сколько это будет стоить? (Регрессия)
Глава 6. Конфиденциальность и этика
Коммерческие интересы против частной жизни
Этические последствия науки о данных: профилирование и дискриминация
В поисках утраченной приватности
Вычислительные методы сохранения конфиденциальности
Правовые рамки регулирования использования данных и защиты конфиденциальности
На пути к этической науке о данных
Глава 7. Будущие тенденции и принципы успешности
Наука о данных и медицина
Умные города
Проектные принципы науки о данных: почему одни проекты успешны, а другие нет
Мысли напоследок
Глоссарий
Отрывок из книги
Цель науки о данных – улучшить процесс принятия решений, основывая их на более глубоком понимании ситуации с помощью анализа больших наборов данных. Как область деятельности наука о данных включает в себя ряд принципов, методов постановки задач, алгоритмов и процессов для выявления скрытых полезных закономерностей в больших наборах данных. Она тесно связана с глубинным анализом данных и машинным обучением, но имеет более широкий охват. Сегодня наука о данных управляет принятием решений практически во всех сферах современного общества. В повседневной жизни вы ощущаете на себе воздействие науки о данных, когда видите отобранные специально для вас рекламные объявления, рекомендованные фильмы и книги, ссылки на предполагаемых друзей, отфильтрованные письма в папке со спамом, персональные предложения от мобильных операторов и страховых компаний. Она влияет на порядок переключения и длительность сигналов светофоров в вашем районе, на то, как были созданы новые лекарства, продающиеся в аптеке, и то, как полиция вычисляет, где может потребоваться ее присутствие.
Рост использования науки о данных в обществе обусловлен появлением больших данных и социальных сетей, увеличением вычислительной мощности, уменьшением размеров носителей компьютерной памяти и разработкой более эффективных методов анализа и моделирования данных, таких как глубокое обучение. Вместе эти факторы означают, что сейчас процесс сбора, хранения и обработки данных стал как никогда ранее доступен для организаций. В то же время эти технические новшества и растущее применение науки о данных означают, что этические проблемы, связанные с использованием данных и личной конфиденциальностью, тоже вышли на первый план. Цель этой книги – познакомить с наукой о данных на уровне ее основных элементов и с той степенью погружения, которая обеспечит принципиальное понимание вопроса.
.....
Появление больших данных привело к разработке новых технологий создания баз данных. Базы данных нового поколения часто называют базами NoSQL. Они имеют более простую модель, чем привычные реляционные базы данных, и хранят данные в виде объектов с атрибутами, используя язык представления объектов, такой как JavaScript Object Notation (JSON). Преимущество использования объектного представления данных (по сравнению с моделью на основе реляционной таблицы) состоит в том, что набор атрибутов для каждого объекта заключен в самом объекте, а это открывает дорогу к гибкому отображению данных. Например, один из объектов в базе данных может иметь сокращенный набор атрибутов по сравнению с другими объектами. В структуре реляционной базы данных, напротив, все значения в таблице должны иметь одинаковый набор атрибутов (столбцов). Эта гибкость важна в тех случаях, когда данные (из-за их разнообразия или типа) не раскладываются естественным образом в набор структурированных атрибутов. К примеру, сложно определить набор атрибутов для отображения неформального текста (скажем, твитов) или изображений. Однако, хотя эта гибкость представления позволяет нам собирать и хранить данные в различных форматах, для последующего анализа их все равно приходится структурировать.
Большие данные также привели к появлению новых платформ для их обработки. При работе с большими объемами информации на высоких скоростях может быть полезным с точки зрения вычислений и поддержания скорости распределять данные по нескольким серверам, затем обрабатывать запросы, вычисляя их результаты по частям на каждом из серверов, а затем объединять их в сгенерированный ответ. Такой подход использован в модели MapReduce на платформе Hadoop. В этой модели данные и запросы отображаются на нескольких серверах (распределяются между ними), а затем рассчитанные на них частичные результаты объединяются.
.....