Читать книгу Основы глубокого обучения - Нихиль Будума - Страница 15

Глава 2. Обучение нейросетей с прямым распространением сигнала
Дельта-правило и темп обучения

Оглавление

Прежде чем вывести точный алгоритм обучения фастфудного нейрона, поговорим о гиперпараметрах. Помимо весов, определенных в нашей нейросети, обучающим алгоритмам нужен ряд дополнительных параметров. Один из этих гиперпараметров – темп обучения.

На каждом шаге движения перпендикулярно контуру нам нужно решать, как далеко мы хотим зайти, прежде чем заново вычислять направление. Это расстояние зависит от крутизны поверхности. Почему? Чем ближе мы к минимуму, тем короче должны быть шаги. Мы понимаем, что близки к минимуму, поскольку поверхность намного более плоская и крутизну мы используем как индикатор степени близости к этому минимуму. Но если поверхность ошибки рыхлая, процесс может занять много времени. Поэтому часто стоит умножить градиент на масштабирующий коэффициент – темп обучения. Его выбор – сложная задача (рис. 2.4).


Рис. 2.4. Если темп обучения слишком велик, возникают проблемы со сходимостью


Как мы уже говорили, если он будет слишком мал, возможно, процесс займет слишком много времени. Но если темп будет слишком высоким, то кончится это, скорее всего, тем, что мы отклонимся от минимума. В главе 4 мы поговорим о методах оптимизации, в которых используются адаптивные темпы обучения для автоматизации выбора.

Теперь мы готовы вывести дельта-правило для обучения линейного нейрона. Чтобы вычислить, как изменять каждый вес, мы оцениваем градиент: по сути, частную производную функции потерь по каждому из весов. Иными словами, нам нужен такой результат:


Применяя этот метод изменения весов при каждой итерации, мы получаем возможность использовать градиентный спуск.

Основы глубокого обучения

Подняться наверх