Читать книгу Основы глубокого обучения - Нихиль Будума - Страница 10

Глава 1. Нейросеть
Нейроны с сигмоидой, гиперболическим тангенсом и усеченные линейные

Оглавление

На практике для вычислений применяются три типа нелинейных нейронов. Первый называется сигмоидным и использует функцию:


Интуитивно это означает, что, если логит очень мал, выходные данные логистического нейрона близки к 0. Если логит очень велик – то к 1. Между этими двумя экстремумами нейрон принимает форму буквы S, как на рис. 1.11.


Рис. 1.11. Выходные данные сигмоидного нейрона с переменной z


Нейроны гиперболического тангенса (tanh-нейроны) используют похожую S-образную нелинейность, но исходящие значения варьируют не от 0 до 1, а от −1 до 1. Формула для них предсказуемая: f(z) = tanh(z). Отношения между входным значением y и логитом z показаны на рис. 1.12. Когда используются S-образные нелинейности, часто предпочитают tanh-нейроны, а не сигмоидные, поскольку у tanh-нейронов центр находится в 0.


Рис. 1.12. Выходные данные tanh-нейрона с переменной z


Еще один тип нелинейности используется нейроном с усеченным линейным преобразованием (ReLU). Здесь задействована функция f(z) = max(0, z), и ее график имеет форму хоккейной клюшки (рис. 1.13).


Рис. 1.13. Выходные данные ReLU-нейрона с переменной z


ReLU в последнее время часто выбирается для выполнения многих задач (особенно в системах компьютерного зрения) по ряду причин, несмотря на свои недостатки[8]. Этот вопрос мы рассмотрим в главе 5 вместе со стратегиями борьбы с потенциальными проблемами.

8

Nair V., Hinton G. E. Rectified Linear Units Improve Restricted Boltzmann Machines // Proceedings of the 27th International Conference on Machine Learning (ICML-10), 2010.

Основы глубокого обучения

Подняться наверх