Читать книгу ИИ без магии. Искусственный интеллект – про сложное просто - Галя Дмитриева - Страница 9
Глава 7. Архитектура нейросети. Трансформеры. Что такое Self-attention
Оглавление– Архитектура нейросети построена на технологии трансформеры – начала я. Трансформер – это не отдельная программа, не база знаний и не алгоритм в классическом смысле, а схема обработки информации. Это способ научить нейросеть понимать и обрабатывать язык целиком, а не по кусочкам.
Раньше нейросети читали текст строго по порядку: слово за словом. Это было медленно и плохо работало с длинными текстами. Трансформеры изменили подход.
– Представь, что ты читаешь предложение, – продолжила я. – Ты не ждёшь конца, чтобы понять начало. Ты держишь в голове весь смысл сразу.
Трансформер делает примерно то же самое – обрабатывает последовательность параллельно:
• смотрит на все слова одновременно;
• понимает, какие слова важны друг для друга;
• учитывает контекст целого предложения или абзаца.
– То есть он не просто идёт слева направо?
– Именно. Он работает с текстом как с системой связей.
– Внутри трансформера есть механизм, который называется self-attention – «само-внимание».
– О, вот это слово я уже слышала, – оживилась Маша.
– Это ключевая идея. Self-attention позволяет модели определить, на какие слова стоит обратить внимание, когда она обрабатывает конкретное слово (вычисляет веса влияния токенов друг на друга).
Приведу пример тебе, в предложении «Маша взяла книгу, потому что она была интересной» модель должна понять, что «она» – это книга, а не Маша.
Self-attention помогает установить такие связи.
– То есть модель как будто расставляет акценты?
– Да. Она вычисляет, какие части текста влияют друг на друга сильнее, а какие слабее.
– Именно благодаря трансформерам чаты ИИ:
• понимают длинные диалоги;
• помнят контекст разговора;
• отвечают связно и логично;
• могут рассуждать, объяснять и продолжать мысль.
Без трансформеров ChatGPT был бы медленным и плохо понимающим длинные вопросы.
– А трансформер – это и есть GPT?
– Нет. GPT – это модель, построенная на архитектуре трансформера. Как дом:
• архитектура – это проект,
• модель – конкретный построенный дом,
• обучение – это то, чем его наполнили.
Трансформеры – это прорыв. Сегодня они используются не только в чатах, но и:
• в переводчиках;
• в генерации изображений;
• в анализе видео;
• в работе с кодом;
• в поиске и рекомендациях.
Маша нахмурилась:
– То есть трансформер понимает?
Я покачала головой:
– Он моделирует понимание, но не осознаёт смысл, как человек.
Трансформер:
• работает с вероятностями;
• ищет закономерности;
• предсказывает продолжение.
Он не знает, что такое книга или кофе. Он знает, как слова обычно связаны друг с другом.
– И делает это чертовски убедительно.
– Именно.
Я заглянула в Машин блокнот, где она записала:
1. Трансформер – это архитектура нейросети;
2. Он обрабатывает текст целиком, а не по одному слову;
3. Основан на механизме self-attention;
4. Трансформеры лежат в основе ChatGPT и других чатов ИИ;
5. GPT – это модель, построенная на архитектуре трансформера.