Укрощение больших данных. Как извлекать знания из массивов информации с помощью глубокой аналитики
Реклама. ООО «ЛитРес», ИНН: 7719571260.
Оглавление
Билл Фрэнкс. Укрощение больших данных. Как извлекать знания из массивов информации с помощью глубокой аналитики
Эту книгу хорошо дополняют:
От партнера издания
Предисловие
Введение
Целевая аудитория
Обзор содержания
Часть I. Появление больших данных
Глава 1. Что такое «большие данные» и каково их значение?
Что такое «большие данные»?
Что важнее: «большие» или «данные»?
Чем большие данные отличаются от традиционных данных?
В чем сходство между большими данными и традиционными данными?
Риски, связанные с большими данными
Почему большие данные необходимо укротить
Структура больших данных
Исследование больших данных
Большая часть больших данных не имеет значения
Эффективная фильтрация больших данных
Потребность в стандартах
Сегодняшние большие данные отличаются от завтрашних больших данных
Обзор главы
Глава 2. Веб-данные: первые большие данные
Обзор веб-данных
Что вы упускаете?
Представьте себе возможности
Принципиально новый источник информации
Какие данные необходимо собирать?
Что позволяют обнаружить веб-данные
Покупательское поведение
Пути к покупке и предпочтения потребителей
Исследовательское поведение
Обратная связь от потребителей
Веб-данные в действии
Следующее наилучшее предложение
Моделирование потерь
Моделирование отклика
Сегментация клиентов
Оценка эффективности рекламы
Обзор главы
Глава 3. Источники больших данных и их ценность
Автострахование: значение телематических данных
Использование телематических данных
Разные отрасли: значение текстовых данных
Использование текстовых данных
Разные отрасли: значение данных о времени и местоположении
Использование данных о времени и месте нахождения
Розничная торговля и производство: значение данных радиочастотной идентификации (RFID)
Использование данных радиочастотной идентификации
Коммунальные предприятия: значение данных, генерируемых интеллектуальными сетями
Использование данных интеллектуальных сетей
Индустрия игр: значение данных отслеживания фишек
Использование данных отслеживания фишек казино
Промышленные двигатели и оборудование: значение данных, полученных от датчиков
Использование данных, полученных от датчиков
Видеоигры: значение телеметрических данных
Использование телеметрических данных
Телекоммуникации и другие отрасли: значение данных, полученных из социальных сетей
Использование данных социальной сети
Обзор главы
Часть II. Укрощение больших данных: технологии, процессы и методы
Глава 4. Эволюция масштабируемости аналитических систем
История масштабируемости
Слияние аналитической среды со средой данных
Массивно-параллельные системы обработки
Использование MPP-систем для подготовки данных и скоринга
Модель проталкивания SQL
Функции, определенные пользователем
Встроенные процессы
Язык разметки для прогнозного моделирования
Использование MPP-систем для подготовки данных и скоринга. Подведение итогов
Облачные вычисления
Публичные облака
Частные облака
Облачные вычисления. Подведение итогов
Грид-вычисления
Модель MapReduce
Принцип работы MapReduce
Сильные и слабые стороны модели MapReduce
Модель MapReduce. Подведение итогов
Речь не о выборе или/или!
Обзор главы
Глава 5. Эволюция аналитических процессов
Аналитическая песочница
Аналитическая песочница: определение и сфера применения
Преимущества аналитической песочницы
Внутренняя песочница
Внешняя песочница
Гибридная песочница
Данные нужно не только использовать, но и развивать!
Управление рабочей нагрузкой и планирование мощностей
Что такое аналитический набор данных?
Сравнение аналитических наборов данных для разработки и производственных аналитических наборов данных
Традиционные аналитические наборы данных
Аналитический набор данных предприятия
Когда следует создавать аналитический набор данных предприятия
Что входит в аналитический набор данных предприятия?
Сравнение логической и физической структур
Обновление аналитического набора данных предприятия
Сводные таблицы или представления?
Делитесь богатством!
Встроенный скоринг
Интеграция встроенного скоринга
Управление моделями и оценками
Входные аналитические наборы данных
Описание модели
Проверка модели и отчетность
Выходные данные модели
Обзор главы
Глава 6. Эволюция аналитических инструментов и методов
Эволюция аналитических методов
Групповые методы (ensemble methods)
Экспресс-модели (commodity models)
Способы применения экспресс-моделей
Анализ текста
Отслеживание появляющихся методов
Эволюция аналитических инструментов
Распространение графических пользовательских интерфейсов
Взрыв популярности точечных решений
История открытого программного обеспечения
Проект R для статистических расчетов
История визуализации данных
Современные средства визуализации
Важность визуализации для передовой аналитики
Обзор главы
Часть III. Укрощение больших данных: люди и подходы
Глава 7. Что такое хороший анализ?
Анализ против отчетности
Отчетность
Анализ
Критерии хорошего анализа
Базовая аналитика против углубленной аналитики
Прислушивайтесь к своему анализу
Правильная постановка проблемы
Статистическая значимость и важность для бизнеса
Статистическая значимость
Важность для бизнеса
Выборка против популяции
Предположения против подсчета статистики
Обзор главы
Глава 8. Что такое хороший профессионал в области аналитики?
Кто такой профессионал в области аналитики?
Распространенные заблуждения о профессионалах в области аналитики
Каждый хороший профессионал в области аналитики – исключение
Образование
Отраслевой опыт
Остерегайтесь использовать «список»
Что еще нужно ценить в профессионалах-аналитиках
Ответственность
Творческий подход
Чистые данные существуют только в учебниках
Достаточно чистые данные
Деловая смекалка
Подходящий уровень детализации
Концентрация на самом важном
Культурная осведомленность
Навыки презентации и коммуникации
Результаты – не самый важный фактор успеха
Урок из области рекламы
Интуиция
Искусство или наука
Нужна ли аналитику сертификация?
Обзор главы
Глава 9. Что такое хорошая аналитическая команда?
Все отрасли разные
Просто начните действовать!
Дефицит талантов
Структуры команд
Децентрализованные/функциональные структуры
Централизованные структуры
Гибридные структуры
Поддержание высокого уровня компетентности команды
Матричный подход
Взаимное обучение
Менеджерам нельзя терять хватку
Кто должен заниматься углубленной аналитикой?
Примеры непоследовательности
Создайте такие условия, чтобы новички могли достичь успеха
Почему ИТ-специалисты и аналитики не ладят между собой?
Обзор главы
Часть IV. Объединение пройденного: аналитическая культура
Глава 10. Создание условий для внедрения инноваций в сфере аналитики
Компаниям необходимо больше инноваций
Традиционные подходы препятствуют внедрению инноваций
Понятие аналитической инновации
Итеративные подходы к внедрению аналитических инноваций
Будьте готовы изменить точку зрения
Готовы ли вы к созданию центра аналитических инноваций?
Объединение концепций
Руководящие принципы центра аналитических инноваций
Сфера деятельности центра аналитических инноваций
Как быть с неудачами
Обзор главы
Глава 11. Создание культуры инноваций и открытий
Подготовка почвы
Невероятная история Crocs и Jibbitz
Эффективная инновационная деятельность
Обзор ключевых принципов
Принцип 1: выйдите за рамки
Берите пример с Коперника
Применение принципа
Принцип 2: воспользуйтесь волновым эффектом
От телефонов к интернету и социальным медиа
Анализ данных социальных сетей
Применение принципа
Принцип 3: сосредоточьте все силы на достижении цели
Создание общего видения
Определение приоритетов
Привязка зарплаты к видению и приоритетам
Применение принципа
Обзор главы
Заключение. Мыслите масштабнее!
Благодарности
Об авторе
Отрывок из книги
Большие данные
Виктор Майер-Шенбергер
.....
Самая большая трудность при работе с большими данными может заключаться не в анализе, а в процессе извлечения, преобразования и загрузки данных (ETL), который необходимо наладить перед проведением анализа. ETL – это процесс сбора необработанных данных, их чтения и получения полезных выходных данных. Сначала данные извлекаются (E, extracted) из соответствующего источника. Затем они преобразуются (Т, transformed) путем агрегации, комбинирования и применения функций, чтобы обеспечить возможность их дальнейшего использования. И, наконец, данные загружаются (L, loaded) в среду для анализа данных. Это и есть ETL-процесс.
Вернемся к нашему примеру. Когда вы пьете воду из шланга, вам все равно, какая часть потока воды попадет в рот. В случае с большими данными, напротив, очень важно, какие части потока данных будут собраны. Сначала вам потребуется изучить весь поток данных, и только после этого можно отфильтровать нужные вам фрагменты информации. Вот почему процесс укрощения больших данных может занять так много времени.
.....
Пользователь
Для больших начальников или для студентов
Книга начинается восторженными заявлениями о перспективах анализа больших данных («Большие данные? Ух, мы вас сейчас проанализируем!»). Эта эмоциональность к концу первой главы начинает надоедать.Приводится несколько примеров источников больших данных, но когда речь заходит о методах анализа, то повествование не распространяется дальше общих фраз. Если считать это обзором, то упоминается слишком мало инструментов и технологий.На мой взгляд, лучше всего проработана глава 3, в которой описываются требования к бизнес-аналитикам и их месте в структуре организации. Эта часть может быть интересна для HR-специалистов и руководителей. Но о больших данных в этой главе – ни слова.Общий вывод: книга носит обзорный характер и подойдёт для первого знакомства с возможностями, которые открывает аналитическое подразделение для бизнеса. Я бы назвал её «Бизнес-аналитик: введение в специальность».