Много цифр. Анализ больших данных при помощи Excel

Много цифр. Анализ больших данных при помощи Excel
Автор книги: id книги: 544915     Оценка: 0.0     Голосов: 0     Отзывы, комментарии: 1 999 руб.     (9,97$) Читать книгу Купить и скачать книгу Купить бумажную книгу Электронная книга Жанр: Программы Правообладатель и/или издательство: "Альпина Диджитал" Дата публикации, год издания: 2014 Дата добавления в каталог КнигаЛит: ISBN: 978-5-9614-4076-8 Скачать фрагмент в формате   fb2   fb2.zip Возрастное ограничение: 12+ Оглавление Отрывок из книги

Реклама. ООО «ЛитРес», ИНН: 7719571260.

Описание книги

Казалось бы, термин «большие данные» понятен и доступен только специалистам. Но автор этой книги доказывает, что анализ данных можно организовать и в простом, понятном, очень эффективном и знакомом многим Excel. Причем не важно, сколько велик ваш массив данных. Техники, предложенные в этой книге, будут полезны и владельцу небольшого интернет-магазина, и аналитику крупной торговой компании. Вы перестанете бояться больших данных, научитесь видеть в них нужную вам информацию и сможете проанализировать предпочтения ваших клиентов и предложить им новые продукты, оптимизировать денежные потоки и складские запасы, другими словами, повысите эффективность работы вашей организации. Книга будет интересна маркетологам, бизнес-аналитикам и руководителям разных уровней, которым важно владеть статистикой для прогнозирования и планирования будущей деятельности компаний.

Оглавление

Джон Форман. Много цифр. Анализ больших данных при помощи Excel

Введение

Что я здесь делаю?

Рабочее определение науки о данных

Но подождите, а как же большие данные?

Кто я?

Кто вы?

Никаких сожалений – только электронные таблицы

Но электронные таблицы так устарели!

Используйте Excel или LibreOffice

Условные обозначения

Итак, начнем

1. Все, что вы жаждали знать об электронных таблицах, но боялись спросить

Немного данных для примера

Быстрый просмотр с помощью кнопок управления

Быстрое копирование формул и данных

Форматирование ячеек

Специальная вставка

Вставка диаграмм

Расположение меню поиска и замены

Формулы поиска и вывода величины

Использование VLOOKUP/ВПР для объединения данных

Фильтрация и сортировка

Использование сводных таблиц

Использование формул массива

Решение задач с помощью «Поиска решения»

OpenSolver: хотелось бы обойтись без него, но это невозможно

Подытожим

2. Кластерный анализ, часть I: использование метода k-средних для сегментирования вашей клиентской базы

Девочки танцуют с девочками, парни чешут в затылке

Реальная жизнь: кластеризация методом k-средних в электронном маркетинге

Оптовая Винная Империя Джоуи Бэг О'Донатса

Исходный набор данных

Определяем предмет измерений

Начнем с четырех кластеров

Евклидово расстояние: измерение расстояний напрямик

Расстояния и принадлежность к кластеру для всех!

Поиск решений для кластерных центров

Смысл полученных результатов

Рейтинг сделок кластерным методом

Силуэт: хороший способ позволить разным значениям k посостязаться

Как насчет пяти кластеров?

Поиск решения для пяти кластеров

Рейтинг сделок для всех пяти кластеров

Вычисление силуэта кластеризации по пяти средним

K-медианная кластеризация и асимметрическое измерение расстояний

Использование k-медианной кластеризации

Переходим к соответствующему измерению расстояний

А теперь все то же самое, но в Excel

Рейтинг сделок для 5-медианных кластеров

Подытожим

3. Наивный байесовский классификатор и неописуемая легкость бытия идиотом

Называя продукт Mandrill, ждите помех вместе с сигналами

Самое быстрое в мире введение в теорию вероятности

Суммируем условную вероятность

Совместная вероятность, цепное правило и независимость

Что же с зависимыми событиями?

Правило Байеса

Использование правила Байеса для создания моделирования

Высококлассные вероятности часто считаются равными

Еще немного деталей классификатора

Да начнется Excel-вечеринка!

Убираем лишнюю пунктуацию

Разное о пробелах

Подсчет жетонов и вычисление вероятностей

У нас есть модель! Воспользуемся ею

Подытожим

4. Оптимизационное моделирование: этот «свежевыжатый апельсиновый сок» не смешает себя сам

Зачем ученым, работающим с данными, нужна оптимизация?

Начнем с простого компромисса

Представим проблему в виде политопа

Решение путем сдвигания линии уровня функции

Симплекс-метод: все по углам

Работа в Excel

Монстр в конце главы

Свежий, из сада – прямо в стакан… с небольшой остановкой на модель смешивания

Вы используете модель для смешивания

Начнем с характеристик

Возвращаемся к консистенции

Вводим данные в Excel

Постановка задачи «Поиску решения»

Снижаем стандарты

Удаление дохлых белок: правило минимакс

«Если… то» и ограничение «Большого М»

Еще больше переменных: добьем до 11

Моделируем риски

Нормальное распределение данных

Подытожим

5. Кластерный анализ, часть II: сетевые графы и определение сообществ

Что такое сетевой граф?

Визуализируем простой граф

Краткое введение в Gephi

Установка Gephi и подготовка файлов

Визуализация графа

Степень вершины

Приятная картинка

Прикосновение к данным графа

Строим граф из данных об оптовой торговле вином

Создание матрицы близости косинусов

Построение графа N-соседства

Числовое значение ребра: очки и штрафные в модулярности графа

Кто же такие «очки» и «штрафные»?

Подготовка к итоговому подсчету

Переходим к кластеризации!

Деление 1

Деление 2: электролатино!

И… деление 3: возмездие

Кодируем и анализируем группы

Туда и обратно: история Gephi

Подытожим

6. Бабушка контролируемого искусственного интеллекта – регрессия

Погоди, ты что – беременна?

Не обольщайтесь!

Определение беременных покупателей РитейлМарта с помощью линейной регрессии

Набор отличительных признаков

Сборка обучающих данных

Создание фиктивных переменных

Мы сделаем свою собственную линейную регрессию!

Статистика линейной регрессии: R-квадрат, критерии Фишера и Стьюдента

Делаем прогнозы на основании новых данных и измеряем результат

Предсказание беременных покупателей РитейлМарта с помощью логистической регрессии

Первое, что нам нужно – это функция связи

Присоединение логистической функции и реоптимизация

Создание настоящей логистической регрессии

Выбор модели: сравнение работы линейной и логистической регрессий

Дополнительная информация

Подытожим

7. Комплексные модели: огромная куча ужасной пиццы

Используем данные из главы 6

Бэггинг: перемешать, обучить, повторить

Одноуровневое дерево решений – неудачное название «неумного» определителя

А мне не кажется, что это глупо!

Нужно еще сильнее!

Обучим же ее!

Оценка бэггинговой модели

Бустинг: если сразу не получилось, бустингуйте и пробуйте снова

Обучаем модель: каждому признаку – шанс

Оценка модели бустинга

Подытожим

8. Прогнозирование: дышите ровно, выиграть невозможно

Торговля мечами начата

Знакомство с временной последовательностью данных

Медленный старт с простым экспоненциальным сглаживанием

Настраиваем прогноз простого экспоненциального сглаживания

Возможно, у вас есть тренд

Экспоненциальное сглаживание Холта с корректировкой тренда

Настройка холтовского сглаживания с коррекцией тренда в электронной таблице

Мультипликативное экспоненциальное сглаживание Холта – Винтерса

Установка исходных значений уровня, тренда и сезонности

Приступим к прогнозу

И наконец… оптимизация!

Пожалуйста, скажите, что это все!!!

Создаем интервал прогнозирования вокруг прогноза

И диаграмма с областями для пущего эффекта

Подытожим

9. Определение выбросов: выделяющиеся не значит важные

Выбросы тоже (плохие?) люди!

Захватывающее дело Хадлум против Хадлум

Границы Тьюки

Применение границ Тьюки в таблице

Ограничения этого нехитрого метода

Ни в чем не ужасен, плох во всем

Подготовка данных к отображению на графе

Создаем граф

Вычисляем k ближайших соседей

Определение выбросов на графе, метод 1: полустепень захода

Определение выбросов на графе, метод 2: нюансы k-расстояния

Определение выбросов на графе, метод 3: факторы локальных выбросов – это то, что надо

Подытожим

10. Переходим от таблиц к программированию

Налаживаем контакт с R

Пошевелим пальцами

Чтение данных в R

Настоящая научная работа с данными

Сферическое k-среднее винных данных в нескольких линиях

Построение моделей ИИ для данных о беременных

Прогнозирование в R

Определение выбросов

Подытожим

Заключение

Где я? Что случилось?

Перед тем как попрощаться

Подход к проблеме

Нам нужно больше «переводчиков»

Остерегайтесь трехголового змея: инструментов, параметров работы и математического совершенства

Вы – не самая важная функция в своей организации

Подходите ко всему творчески и будьте на связи!

Благодарности

Отрывок из книги

Editor’s choice – выбор главного редактора

Разговоры о Big Data идут уже давно, есть и книги на эту тему. Но в общем и целом все они были о том, что Big Data – «круто», этим занимаются ведущие компании мира, а вот и кейсы от этих компаний.

.....

• измерение расстояния между клиентами с помощью близости косинусов угла, создание К-ближайших граф, расчет модулярности и кластеризация клиентов;

• определение выбросов в одном измерении по методу Тьюки или в нескольких измерениях с помощью локальных факторов выброса;

.....

Добавление нового отзыва

Комментарий Поле, отмеченное звёздочкой  — обязательно к заполнению

Отзывы и комментарии читателей

  

Может книга и неплохая, для знакомства с возможностями Excel но, похоже, что три женщины: корректор, редактор и их руководительница порядочно испоганили оригинальную работу автора. Упоминать какие-то жуткие аббревиатуры, например, ОЗБД, это еще полбеды, но перевести колонку «Price» как «среднюю прибыль за единицу товара» – это уже перебор, товарищи!

Смотреть еще отзывы на сайте ЛитРеса
Подняться наверх