Читать книгу ИИ без магии. Искусственный интеллект – про сложное просто - Галя Дмитриева - Страница 9

Глава 7. Архитектура нейросети. Трансформеры. Что такое Self-attention

Оглавление

– Архитектура нейросети построена на технологии трансформеры – начала я. Трансформер – это не отдельная программа, не база знаний и не алгоритм в классическом смысле, а схема обработки информации. Это способ научить нейросеть понимать и обрабатывать язык целиком, а не по кусочкам.

Раньше нейросети читали текст строго по порядку: слово за словом. Это было медленно и плохо работало с длинными текстами. Трансформеры изменили подход.

– Представь, что ты читаешь предложение, – продолжила я. – Ты не ждёшь конца, чтобы понять начало. Ты держишь в голове весь смысл сразу.

Трансформер делает примерно то же самое – обрабатывает последовательность параллельно:

• смотрит на все слова одновременно;

• понимает, какие слова важны друг для друга;

• учитывает контекст целого предложения или абзаца.


– То есть он не просто идёт слева направо?

– Именно. Он работает с текстом как с системой связей.

– Внутри трансформера есть механизм, который называется self-attention – «само-внимание».

– О, вот это слово я уже слышала, – оживилась Маша.

– Это ключевая идея. Self-attention позволяет модели определить, на какие слова стоит обратить внимание, когда она обрабатывает конкретное слово (вычисляет веса влияния токенов друг на друга).

Приведу пример тебе, в предложении «Маша взяла книгу, потому что она была интересной» модель должна понять, что «она» – это книга, а не Маша.

Self-attention помогает установить такие связи.

– То есть модель как будто расставляет акценты?

– Да. Она вычисляет, какие части текста влияют друг на друга сильнее, а какие слабее.

– Именно благодаря трансформерам чаты ИИ:

• понимают длинные диалоги;

• помнят контекст разговора;

• отвечают связно и логично;

• могут рассуждать, объяснять и продолжать мысль.


Без трансформеров ChatGPT был бы медленным и плохо понимающим длинные вопросы.

– А трансформер – это и есть GPT?

– Нет. GPT – это модель, построенная на архитектуре трансформера. Как дом:

• архитектура – это проект,

• модель – конкретный построенный дом,

• обучение – это то, чем его наполнили.


Трансформеры – это прорыв. Сегодня они используются не только в чатах, но и:

• в переводчиках;

• в генерации изображений;

• в анализе видео;

• в работе с кодом;

• в поиске и рекомендациях.


Маша нахмурилась:

– То есть трансформер понимает?

Я покачала головой:

– Он моделирует понимание, но не осознаёт смысл, как человек.

Трансформер:

• работает с вероятностями;

• ищет закономерности;

• предсказывает продолжение.


Он не знает, что такое книга или кофе. Он знает, как слова обычно связаны друг с другом.

– И делает это чертовски убедительно.

– Именно.

Я заглянула в Машин блокнот, где она записала:

1. Трансформер – это архитектура нейросети;

2. Он обрабатывает текст целиком, а не по одному слову;

3. Основан на механизме self-attention;

4. Трансформеры лежат в основе ChatGPT и других чатов ИИ;

5. GPT – это модель, построенная на архитектуре трансформера.

ИИ без магии. Искусственный интеллект – про сложное просто

Подняться наверх