Предсказываем тренды. С Rattle и R в мир моделей классификации
Реклама. ООО «ЛитРес», ИНН: 7719571260.
Оглавление
Александр Фоменко. Предсказываем тренды. С Rattle и R в мир моделей классификации
Предисловие. О чем?
Организация материала
Текущее состояние
Часть 1. Введение в предсказательное моделирование
1. Введение
1.1. Анализ, прогноз, предсказание
1.2. Процесс предсказательного моделирования
1.3. Терминология
1.4. Используемые наборы данных
2. Предварительная обработка данных
2.1. Преобразование отдельных предикторов
2.2. Преобразование групп предикторов
2.3. Обработка пропущенных значений
2.4. Удаление предикторов
2.5. Добавление предикторов
2.6. Группировка предикторов
2.6. Функции R
3. Переобучение и настройка модели
3.1. Проблема переобучения
3.2. Настройка модели
3.3. Разделение данных
3.4. Методы ресемплирования
3.5. Функции R
4. Регрессионные модели
4.1. Результативность регрессионных моделей
4.2. Линейные регрессионные модели
4.3. Нелинейные регрессионные модели
4.4. Регрессионные деревья
4.5. Бутстрэп агрегированные деревья (bagging)
4.6. Случайный лес (random forest)
4.7. Усиление (boosting)
4.8. Функции R
5. Результативность классификационных моделей
5.1. Предсказания класса
5.2. Основы предсказаний классов
6. Линейные классификационные модели
6.1. Логистическая регрессия
6.2. Линейный дискриминантный анализ (LDA)
6.3. Регрессия частично наименьших квадратов (PLS)
6.4. Функции R
7. Нелинейные классификационные модели
7.1. Нейронные сети
7.2. Машины опорных векторов (SVM)
7.3. K-ближайшие соседи (KNN)
7.4. Функции R
8. Классификационные деревья
8.1. Основные классификационные деревья
8.2. Бутстрэп агрегированные деревья
8.3. Случайные леса
8.4. Усиление
8.5. Функции R
9. Несбалансированность классов
9.1. Влияние несбалансированности классов
9.2. Настройка модели
9.3. Случай неравных весов
9.4. Методы сэмплирования
9.5. Обучение, чувствительное к стоимости
9.6. Функции R
10. Значимость предикторов для целевой переменной
10.1. Метрики значимости, полученной из моделей
10.2. Независимые от модели метрики
10.3. Другие подходы
10.4. Функции R
11. Выбор предикторов
11.1. Следствия использования неинформативных предикторов
11.2. Подходы для сокращения количества предикторов
11.3. Методы обертки
11.4. Методы фильтра
11.5. Выбор смещения
11.6. Инструменты R для выбора предикторов. 11.6.1. Пакет Boruta
11.7. Функции R
Часть 2. Краткое описание Rattle
12. Работа новичка с Rattle
12.1. Интерфейс Rattle
12.2. Введение в моделирование с Rattle
12.3. Построение модели
12.4. Данные (вкладка Data)
12.5. Исследование (вкладка Explore)
12.6. Модель (вкладка Model)
12.7. Построение всех моделей и их настройки
12.8. Журнал (вкладка Log)
12.9. Справка
Часть 3. Подробно работаем с Rattle, включая R и МТ4
13. Начало работы
13.1. Стартуем R
13.2. Выход из Rattle и R
13.3. Пробуем «естественные» котировки
13.4. Создание модели на демонстрационных данных погоды
13.5. Оценка модели на данных о погоде
13.6. Загрузка набора данных с котировками
13.7. Описание набора данных с котировками
14. Вкладка «Data – данные»
14.1. Номенклатура данных
14.2. Данные CSV
14.3. Данные ARFF
14.4. Источник данных ODBC
14.5. Данные из рабочего пространства R
14.6. Данные из файлов R
14.7. Библиотека
14.8. Данные корпуса
14.9. Опции данных
14.10. Функции R. 14.10.1. Пример в R
15. Вкладка «Explore – исследование данных»
15.1. Сводки по данным (Summary)
15.2. Распределение
15.3. Корреляционный анализ
15.4. Главные компоненты
16. Вкладка «Test – тестирование данных»
16.1. Вкладка «Test/ Kolmogorov-Smirnov»
16.2. Вкладка «Test/Wilcoxon Rank Sum»
16.3. Вкладка «Test/t-test»
16.4. Вкладка «Test/F-test»
16.5. Вкладка «Test/Correlation»
16.6. Вкладка «Test/ Wilcoxon Signed Rank»
16.7. Функции R
17. Интерактивные графики
18. Вкладка «Transform – преобразование данных»
18.1. Краткий обзор проблем данных
18.2. Вкладка «Transform/Rescale – преобразование/масштабирование»
18.3. Вкладка «Transform/Impute – преобразование/заполнение»
18.4. Вкладка «Transform/Recode – перекодирование»
18.5. Вкладка «Transform/Cleanup – уборка»
18.6. Функции R
19. Описательное и предсказательное моделирование
19.1. Терминология моделирования
19.2. Платформа для моделирования
19.3. Описательное моделирование
19.4. Предсказательное моделирование
19.5. Модели
20. Вкладка «Cluster – кластерный анализ»
21. Вкладка «Associate – анализ зависимостей»
22. Вкладка «Model/Tree – Модель/дерево решений»
22.1. Краткий обзор
22.2. Алгоритм
22.3. Меры
22.4. Пример построения дерева
22.5. Настройка параметров
22.6. Обсуждение
22.7. Итоги
22.8. Функции R
23. Вкладка « Model/Forest – Модель/случайный лес»
23.1. Краткий обзор
23.2. Алгоритм
23.3. Пример построения случайного леса
23.4. Настройка параметров
23.5. Обсуждение. 23.5.1. Краткая история и альтернативные подходы
23.6. Итоги
23.7. Функции R
24. Вкладка «Model/Boost – Модель/адаптивное усиление»
24.1. Краткий обзор
24.2. Алгоритм
24.3. Пример построения дерева с адаптивным усилением
24.4. Аналоги
24.5. Итоги
24.6. Функции R
25. Вкладка «Model/SVM – Модель/машина опорных векторов»
25.1. Алгоритм
25.2. Пример построения машины опорных векторов
25.3. Настройка параметров
25.4. Аналоги
25.5. Функции R
26. Вкладка «Model/Linear – Модель/линейная»
26.1. Краткий обзор
26.2. Алгоритм
26.3. Вкладка «Model/Linear – Модель/линейная»
26.4. Вкладка «Model/Linear/Logistic – Модель/линейная/логистическая»
26.5. Вкладка «Model/Linear/Probit – Модель/линейная/пробит»
26.6. Вкладка «Model/Linear/Multinominal – Модель/линейная / многоуровневая»
26.7. Функции R
27. Вкладка «Model/Neural Net – Модель/нейронные сети»
27.1. Краткий обзор
27.2. Алгоритм
27.3. Пример построения нейронной сети
27.4. Функции R
28. Вкладка «Evaluate – оценить»
28.1. Краткий обзор
28.2. Меры результативности
28.3. Вид вкладки «Evaluate – оценить»
28.4. Error Matrix – матрица ошибок (сопряженности)
28.5. Risk – диаграммы риска
28.6. Lift – диаграммы лифта
28.7. ROC – диаграммы ROC
28.8. Sensivity – диаграмма чувствительности/специфики
28.9. Функции R. 28.9.1. Функция performance -создание объекта performance
29. Использование моделей
29.1. Введение
29.2. Подготовка к использованию моделей
29.3. Ручной режим
29.4. Автоматизированный режим (терминал МТ4)
Приложение А. Установка Rattle
Приложение В. Наборы данных
B1. Набор данных audit
B2. Набор данных weather
B3. Набор данных kot60_110101_131231_UE. txt
B4. Набор данных zz_1_5.RData
Приложение С. Тексты скриптов
C1. Prepare_DF. R – cкрипт подготовки исходных данных
C2. prep_zz – функция подготовки файла обучения и предсказания
C3. prep_model – скрипт сохранения модели
C4. Predict_model – cкрипт предсказания (без МТ4)
C5. predict_rf – функция предсказания по модели случайного леса (из МТ4)
Литература
Отрывок из книги
При построении торговых систем вообще, и с использованием терминала МТ4/5 в частности, приходится решать целый комплекс взаимосвязанных задач.
Изначально, целью построения торговой системы является предсказание поведения некоторого рыночного инструмента, например, валютной пары. Цели предсказания могут быть разными, мы же ограничимся предсказанием трендов, а точнее предсказанием роста (лонгов) или падения («шортов») значений котировки валютной пары. Кроме этого будем предсказывать боковики – нахождение вне рынка.
.....
Если используемая модель чувствительна к выбросам, то существует преобразование данных, которое может минимизировать задачу – это пространственный знак.
2.2.2. Снижение объема данных и выделение предикторов (PCA)
.....