Читать книгу Гений кода. Истории самых впечатляющих ИИ-проектов, которые уже меняют жизнь - Ар'лан ис'Дрекхэм - Страница 14

Часть 3: Генеративная революция. Творцы, а не просто классификаторы
Глава 13. Трансформеры: Почему статья «Attention Is All You Need» взорвала мир

Крючок: Восемь имён, которые вы должны знать

Летом 2017 года на arXiv (сайт с научными статьями) появился препринт с броским названием: «Attention Is All You Need» («Внимание – всё, что тебе нужно»).

Авторов было восемь: Ашиш Васвани, Ной Шазер, Ники Пармар, Якоб Ушкорейт, Ллион Джонс, Эйдан Гомес, Лукаш Кайзер и Илья Полосухин.

Тогда на эту статью мало кто обратил внимание. Ну, подумаешь, очередная архитектура для машинного перевода. Мало ли их выходит каждый месяц.

Сегодня эта статья – одна из самых цитируемых в истории компьютерных наук. На её основе построены все современные большие языковые модели: GPT, BERT, Gemini, Llama, Claude. Без неё не было бы ChatGPT. Не было бы Midjourney. Не было бы того мира, в котором мы живём.

Что же такого гениального они написали?

Герои: Команда мечты из Google

Восемь авторов работали в Google Brain и Google Research. Это была сборная солянка талантов из разных стран: США, Индия, Польша, Канада.

Их идея родилась из разочарования. В то время лучшими моделями для работы с последовательностями (текст, речь) были рекуррентные нейросети (RNN) и LSTM. Они читали текст слово за словом, поддерживая внутреннее состояние (память).

Но у RNN были огромные проблемы:

– Медленно. Нельзя распараллелить, потому что нужно ждать, пока обработается первое слово, потом второе и так далее.

– Забывчивость. Длинные зависимости (когда важное слово в начале предложения влияет на слово в конце) давались им с трудом.

– Сложно обучать. Градиенты затухали на длинных последовательностях.

Команда задала себе дерзкий вопрос: «А что, если выкинуть всю рекуррентность вообще? Что, если оставить только механизм внимания?»

Конфликт: Почему все думали, что внимание – это добавка

Механизм внимания (attention) был известен и до 2017 года. Его использовали в машинном переводе как дополнение к RNN. Идея была простая: когда модель переводит предложение, она не обязана смотреть на все слова исходного текста равномерно. Она может фокусироваться на нужных словах в нужный момент.

Например, переводя слово «кот», она смотрит на слово «cat» в исходном предложении, а не на артикли и предлоги.

Но внимание всегда считалось приправой к основному блюду – рекуррентным сетям. Никто не думал, что внимание может быть основным блюдом.

Команда трансформеров решила проверить эту безумную гипотезу.

Развязка: Архитектура, которая изменила всё

Трансформер, который они предложили, состоял из нескольких ключевых идей.

Идея 1: Самовнимание (Self-Attention).

Это гениальный ход. Модель смотрит на предложение и спрашивает: «Какие слова здесь важны друг для друга?».

В предложении «Она уронила сумку, потому что она была тяжёлая» – кто «она»? Сумка или женщина? Человек понимает по контексту. Трансформер учится понимать то же самое, вычисляя «внимание» между всеми словами одновременно.

Каждое слово «смотрит» на все другие слова в предложении и решает, насколько они важны для его понимания.

Идея 2: Параллельная обработка.

В отличие от RNN, которые читают последовательно, трансформер читает все слова сразу. Это как если бы ты смотрел на весь текст целиком, а не читал по буквам. Это позволяет обучать модели на огромных кластерах GPU, потому что всё можно распараллелить.

Идея 3: Позиционные кодировки.

Но если все слова видны сразу, как модель понимает их порядок? Ведь «Кот съел мышь» и «Мышь съела кота» – это разные вещи.

Авторы придумали добавлять к векторам слов специальные позиционные сигналы (синусы и косинусы разных частот), которые кодируют позицию слова в предложении. Математически элегантное решение.

Идея 4: Многоголовое внимание (Multi-Head Attention).

Вместо одного механизма внимания они использовали несколько «голов», каждая из которых учится обращать внимание на разные аспекты текста. Одна голова следит за синтаксисом, другая – за семантикой, третья – за местоимениями. Потом всё это собирается вместе.

Инсайт: Почему «All You Need»

Название статьи – «Attention Is All You Need» – звучало как манифест. И оно оказалось правдой.

Трансформер оказался лучше RNN во всём:

– Скорость обучения: в разы быстрее благодаря параллелизации.

– Качество: лучше захватывал длинные зависимости.

– Масштабируемость: его можно было делать огромным, добавляя слои и головы внимания.

Статья показала, что рекуррентные сети больше не нужны. Внимание действительно решает все задачи работы с последовательностями.

Триумф: Как трансформер завоевал мир

После выхода статьи в 2017 году началась лавина.

2018: BERT (от Google) использует трансформеры и бьёт все рекорды в понимании языка.

2018—2020: GPT (от OpenAI) использует трансформеры и учится генерировать текст.

2020: GPT-3 с 175 миллиардами параметров показывает, что масштабирование трансформеров даёт разум.

2022: ChatGPT выходит в свет, и мир сходит с ума.

2023—2024: Трансформеры начинают использовать везде: в музыке (MusicGen), в видео (Sora, Veo), в химии (AlphaFold), в генетике (AlphaMissense).

Трансформер стал универсальной архитектурой для всего, где есть последовательности.

Почему это гениально (ещё раз, простыми словами)

Представь, что ты читаешь книгу в компании друзей. Раньше (RNN) вы читали по очереди: первый прочитал слово, передал эстафету второму, тот третьему. Медленно, и к концу страницы первый уже забыл начало.

Трансформер – это когда все одновременно читают всю страницу и постоянно перекрикиваются: «Эй, смотри, это слово связано с тем словом в начале!» Все слышат всех одновременно. Быстро, эффективно, и никто ничего не забывает.

Темная сторона: Цена внимания

У трансформеров есть и обратная сторона.

1. Квадратичная сложность.

Чем длиннее текст, тем больше вычислений нужно. Внимание считается для всех пар слов, а это квадрат от длины текста. Для коротких текстов ок, но для целых книг (1 миллион токенов) это становится проблемой. Учёные бьются над решением (Sparse Attention, Linear Attention), но проблема пока не решена полностью.

2. Гигантомания.

Трансформеры так хорошо масштабируются, что все бросились делать модели всё больше и больше. GPT-3 – 175 млрд параметров. GPT-4 – 估计 1.8 трлн (по слухам). Это требует чудовищных ресурсов, доступных только гигантам.

3. Непонятность.

Модели стали настолько сложными, что никто до конца не понимает, как именно они работают. Мы знаем архитектуру, но внутренняя жизнь трансформера с миллиардами параметров – это «чёрный ящик».

Наследие: Восемь гениев, разлетевшихся по миру

Судьба авторов той статьи тоже интересна. Они разлетелись по разным компаниям, основывая новые проекты.

– Эйдан Гомес соосновал Cohere – конкурента OpenAI.

– Ной Шазер и Ники Пармар основали Character.ai – платформу для общения с ИИ-персонажами.

– Лукан Кайзер ушёл в DeepMind.

– Илья Полосухин (кстати, выходец из России) работал в Google, потом в OpenAI.

Все они стали звёздами первой величины. А их статья продолжает собирать цитирования и вдохновлять новые поколения исследователей.

Твой ход: Четыре урока от трансформеров

– Иногда старое – это новое. Механизм внимания был известен. Но никто не думал сделать его главным. Не бойся брать известные идеи и доводить их до крайности.

– Параллельность – сила. В мире, где всё можно делать одновременно, последовательные процессы проигрывают. Ищи, что в твоей работе можно делать параллельно.

– Контекст решает всё. Трансформеры победили, потому что научились учитывать весь контекст сразу. В жизни тоже: принимай решения, оглядываясь на всю картину целиком, а не на один фрагмент.

– Название имеет значение. «Attention Is All You Need» – гениальный заголовок. Он запоминается, он интригует, он обещает революцию. Учись упаковывать свои идеи в яркие формулировки.

P.S.

Знаешь, что сказал один из авторов, когда его спросили, ожидали ли они такого успеха?

«Мы знали, что это хорошая работа. Но чтобы она изменила весь мир? Нет, конечно. Мы просто пытались решить конкретную задачу – ускорить машинный перевод».

Так часто бывает с гениальными открытиями – они решают локальную проблему, а меняют всё вокруг.

Гений кода. Истории самых впечатляющих ИИ-проектов, которые уже меняют жизнь

Подняться наверх

Читать книгу Гений кода. Истории самых впечатляющих ИИ-проектов, которые уже меняют жизнь - Ар'лан ис'Дрекхэм - Страница 14

Часть 3: Генеративная революция. Творцы, а не просто классификаторыГлава 13. Трансформеры: Почему статья «Attention Is All You Need» взорвала мир

Часть 3: Генеративная революция. Творцы, а не просто классификаторы
Глава 13. Трансформеры: Почему статья «Attention Is All You Need» взорвала мир