Наука о данных

Наука о данных
Автор книги: id книги: 1500443     Оценка: 0.0     Голосов: 0     Отзывы, комментарии: 0 499 руб.     (5,5$) Читать книгу Купить и скачать книгу Купить бумажную книгу Электронная книга Жанр: Базы данных Правообладатель и/или издательство: Альпина Диджитал Дата публикации, год издания: 2018 Дата добавления в каталог КнигаЛит: ISBN: 978-5-9614-3378-4 Скачать фрагмент в формате   fb2   fb2.zip Возрастное ограничение: 12+ Оглавление Отрывок из книги

Реклама. ООО «ЛитРес», ИНН: 7719571260.

Описание книги

Сегодня наука о данных используется практически во всех сферах: вы видите подобранные специально для вас рекламные объявления, рекомендованные на основе ваших предпочтений фильмы и книги, ссылки на предполагаемых друзей в соцсетях, отфильтрованные письма в папке со спамом. Книга знакомит с основами науки о данных. В ней охватываются все ключевые аспекты, начиная с истории развития сбора и анализа данных и заканчивая этическими проблемами, связанными с конфиденциальностью информации. Авторы объясняют, как работают нейронные сети и машинное обучение, приводят примеры анализа бизнес-проблем и того, как их можно решить, рассказывают о сферах, на которые наука о данных окажет наибольшее влияние в будущем. «Наука о данных» уже переведена на японский, корейский и китайский языки.

Оглавление

Брендан Тирни. Наука о данных

Предисловие

Благодарности

Глава 1. Что такое наука о данных?

Краткая история науки о данных

Где используется наука о данных?

Почему сейчас?

Разоблачение мифов

Глава 2. Что такое данные и что такое набор данных?

Перспективы данных

Данные накапливаются, мудрость – нет!

Процесс CRISP-DM

Глава 3. Экосистема науки о данных

Перемещение алгоритмов в данные

Подготовка и интеграция данных

Создание базовой аналитической таблицы

Глава 4. Основы машинного обучения

Обучение с учителем и без

Обучение моделей прогнозирования

Смещения в науке о данных

Оценка моделей: обобщение, а не запоминание

Выводы

Глава 5. Стандартные задачи науки о данных

Кто наши клиенты? (Кластеризация)

Мошенничество ли это? (Обнаружение аномалий)

Добавить картофель фри? (Поиск ассоциативных правил)

Сколько это будет стоить? (Регрессия)

Глава 6. Конфиденциальность и этика

Коммерческие интересы против частной жизни

Этические последствия науки о данных: профилирование и дискриминация

В поисках утраченной приватности

Вычислительные методы сохранения конфиденциальности

Правовые рамки регулирования использования данных и защиты конфиденциальности

На пути к этической науке о данных

Глава 7. Будущие тенденции и принципы успешности

Наука о данных и медицина

Умные города

Проектные принципы науки о данных: почему одни проекты успешны, а другие нет

Мысли напоследок

Глоссарий

Отрывок из книги

Цель науки о данных – улучшить процесс принятия решений, основывая их на более глубоком понимании ситуации с помощью анализа больших наборов данных. Как область деятельности наука о данных включает в себя ряд принципов, методов постановки задач, алгоритмов и процессов для выявления скрытых полезных закономерностей в больших наборах данных. Она тесно связана с глубинным анализом данных и машинным обучением, но имеет более широкий охват. Сегодня наука о данных управляет принятием решений практически во всех сферах современного общества. В повседневной жизни вы ощущаете на себе воздействие науки о данных, когда видите отобранные специально для вас рекламные объявления, рекомендованные фильмы и книги, ссылки на предполагаемых друзей, отфильтрованные письма в папке со спамом, персональные предложения от мобильных операторов и страховых компаний. Она влияет на порядок переключения и длительность сигналов светофоров в вашем районе, на то, как были созданы новые лекарства, продающиеся в аптеке, и то, как полиция вычисляет, где может потребоваться ее присутствие.

Рост использования науки о данных в обществе обусловлен появлением больших данных и социальных сетей, увеличением вычислительной мощности, уменьшением размеров носителей компьютерной памяти и разработкой более эффективных методов анализа и моделирования данных, таких как глубокое обучение. Вместе эти факторы означают, что сейчас процесс сбора, хранения и обработки данных стал как никогда ранее доступен для организаций. В то же время эти технические новшества и растущее применение науки о данных означают, что этические проблемы, связанные с использованием данных и личной конфиденциальностью, тоже вышли на первый план. Цель этой книги – познакомить с наукой о данных на уровне ее основных элементов и с той степенью погружения, которая обеспечит принципиальное понимание вопроса.

.....

Появление больших данных привело к разработке новых технологий создания баз данных. Базы данных нового поколения часто называют базами NoSQL. Они имеют более простую модель, чем привычные реляционные базы данных, и хранят данные в виде объектов с атрибутами, используя язык представления объектов, такой как JavaScript Object Notation (JSON). Преимущество использования объектного представления данных (по сравнению с моделью на основе реляционной таблицы) состоит в том, что набор атрибутов для каждого объекта заключен в самом объекте, а это открывает дорогу к гибкому отображению данных. Например, один из объектов в базе данных может иметь сокращенный набор атрибутов по сравнению с другими объектами. В структуре реляционной базы данных, напротив, все значения в таблице должны иметь одинаковый набор атрибутов (столбцов). Эта гибкость важна в тех случаях, когда данные (из-за их разнообразия или типа) не раскладываются естественным образом в набор структурированных атрибутов. К примеру, сложно определить набор атрибутов для отображения неформального текста (скажем, твитов) или изображений. Однако, хотя эта гибкость представления позволяет нам собирать и хранить данные в различных форматах, для последующего анализа их все равно приходится структурировать.

Большие данные также привели к появлению новых платформ для их обработки. При работе с большими объемами информации на высоких скоростях может быть полезным с точки зрения вычислений и поддержания скорости распределять данные по нескольким серверам, затем обрабатывать запросы, вычисляя их результаты по частям на каждом из серверов, а затем объединять их в сгенерированный ответ. Такой подход использован в модели MapReduce на платформе Hadoop. В этой модели данные и запросы отображаются на нескольких серверах (распределяются между ними), а затем рассчитанные на них частичные результаты объединяются.

.....

Добавление нового отзыва

Комментарий Поле, отмеченное звёздочкой  — обязательно к заполнению

Отзывы и комментарии читателей

Нет рецензий. Будьте первым, кто напишет рецензию на книгу Наука о данных
Подняться наверх