Читать книгу Предсказываем тренды. С Rattle и R в мир моделей классификации - Александр Фоменко - Страница 19
Часть 1. Введение в предсказательное моделирование
3. Переобучение и настройка модели
3.1. Проблема переобучения
ОглавлениеСуществует много методов, которые могут изучить структуру ряда данных так хорошо, что при применении модели к данным, на которых была создана модель, она правильно предсказывает каждое значение. В дополнение к изучению общих образцов в данных модель также изучила характеристики отдельного шума каждой выборки. Эта модель, как говорят, переобучена, и с плохой точностью предскажет целевую переменную на новой выборке.
Изначально, мы учим модель на наборе данных обучения и по результатам обучения получаем некую величину ошибки для регрессионных моделей, или рассогласование для классификационных моделей.
Уже на этом этапе возможно переобучение модели: оценка слишком оптимистична, например, ошибка подгонки менее 5%. Да и ошибка подгонки в 10% должна насторожить!
В этих ситуациях очень важно иметь инструмент для определения переобученности модели на учебных данных.