Читать книгу Основы глубокого обучения - Нихиль Будума - Страница 11
Глава 1. Нейросеть
Выходные слои с функцией мягкого максимума
ОглавлениеЧасто нужно, чтобы выходной вектор был распределением вероятностей по набору взаимоисключающих значений. Допустим, нам нужно создать нейросеть для распознавания рукописных цифр из набора данных MNIST. Каждое значение (от 0 до 9) исключает остальные, но маловероятно, чтобы нам удалось распознать цифры со стопроцентной точностью. Распределение вероятностей поможет понять, насколько мы уверены в своих выводах. Желаемый выходной вектор приобретает такую форму, где :
[p0 p1 p2 p3 … p9].
Для этого используется особый выходной слой, именуемый слоем с мягким максимумом (softmax). В отличие от других типов, выходные данные нейрона в слое с мягким максимумом зависят от выходных данных всех остальных нейронов в нем. Нам нужно, чтобы сумма всех выходных значений равнялась 1. Приняв zi как логит i-го нейрона с мягким максимумом, мы можем достичь следующей нормализации, задав выходные значения:
При сильном предсказании одно из значений вектора будет близко к 1, остальные – к 0. При слабом останется несколько возможных значений, каждое из которых характеризуется своим уровнем вероятности.