Читать книгу Основы глубокого обучения - Нихиль Будума - Страница 14
Глава 2. Обучение нейросетей с прямым распространением сигнала
Градиентный спуск
ОглавлениеВизуализируем для упрощенного случая то, как свести к минимуму квадратичную ошибку по всем обучающим примерам. Допустим, у линейного нейрона есть только два входа (и соответственно только два веса – w1 и w2). Мы можем представить себе трехмерное пространство, в котором горизонтальные измерения соответствуют w1 и w2, а вертикальное – значению функции потерь E. В нем точки на горизонтальной поверхности сопоставлены разным значениям весов, а высота в них – допущенной ошибке. Если рассмотреть все ошибки для всех возможных весов, мы получим в этом трехмерном пространстве фигуру, напоминающую миску (рис. 2.2).
Рис. 2.2. Квадратичная поверхность ошибки для линейного нейрона
Эту поверхность удобно визуализировать как набор эллиптических контуров, где минимальная ошибка расположена в центре эллипсов. Тогда мы будем работать с двумерным пространством, где измерения соответствуют весам. Контуры сопоставлены значениям w1 и w2, которые дают одно и то же E. Чем ближе они друг к другу, тем круче уклон. Направление самого крутого уклона всегда перпендикулярно контурам. Его можно выразить в виде вектора, называемого градиентом.
Пора разработать высокоуровневую стратегию нахождения значений весов, которые сведут к минимуму функцию потерь. Допустим, мы случайным образом инициализируем веса сети, оказавшись где-то на горизонтальной поверхности. Оценив градиент в текущей позиции, мы можем найти направление самого крутого спуска и сделать шаг в нем. Теперь мы на новой позиции, которая ближе к минимуму, чем предыдущая. Мы проводим переоценку направления самого крутого спуска, взяв градиент, и делаем шаг в новом направлении. Как показано на рис. 2.3, следование этой стратегии со временем приведет нас к точке минимальной ошибки. Этот алгоритм известен как градиентный спуск, и мы будем использовать его для решения проблемы обучения отдельных нейронов и целых сетей[10].
Рис. 2.3. Визуализация поверхности ошибок как набора контуров
10
Rosenbloom P. The method of steepest descent // Proceedings of Symposia in Applied Mathematics. 1956. Vol. 6.