Читать книгу Гений кода. Истории самых впечатляющих ИИ-проектов, которые уже меняют жизнь - Ар'лан ис'Дрекхэм - Страница 20

Часть 3: Генеративная революция. Творцы, а не просто классификаторы
Глава 19. GPT-4 и мультимодальность: Когда нейросеть видит картинку и понимает юмор

Крючок: Экзамен, который сдала машина

Март 2023 года. Тысячи студентов-юристов по всей Америке в панике. Они готовились годами, платили десятки тысяч долларов за обучение, зубрили кодексы и прецеденты, чтобы сдать унифицированный экзамен на адвокатскую лицензию (Uniform Bar Exam). Это один из самых сложных профессиональных экзаменов в мире. Провал там – это крах карьеры.

И тут OpenAI тихо публикует отчёт. Их новая модель, GPT-4, сдала этот экзамен.

Но не просто сдала. Она вошла в топ-10% лучших результатов. В то время как предыдущая версия, GPT-3.5, плелась в худших 10%.

Разрыв был колоссальным. За один год модель перешла из категории «троечников» в категорию «круглых отличников». Но самое шокирующее было не в этом. Самое шоковое – GPT-4 сдавала экзамен, видя не только текст, но и картинки, диаграммы, скриншоты.

Она смотрела на условия задачи, нарисованные в виде схемы, и выдавала решение. Она анализировала графики, читала подписи к фотографиям, понимала мемы. Это был момент, когда ИИ перестал быть слепым.

Герои: Команда, которая научила ИИ видеть

За GPT-4 стояла всё та же команда OpenAI, которую мы уже хорошо знаем. Но масштаб был совсем иным.

Если GPT-3 (2020) была просто большой языковой моделью (175 миллиардов параметров), которая работала только с текстом, то GPT-4 стала мультимодальной (LMM – Large Multimodal Model). Это означало, что она училась на тексте и на картинках одновременно, связывая слова с визуальными образами.

Точное количество параметров GPT-4 OpenAI держит в секрете (по слухам, больше триллиона), но главное не в размере. Главное – в архитектуре.

Технически GPT-4 работает так: изображение «разбивается» на патчи (кусочки), превращается в последовательность токенов (как слова в тексте), и трансформер (та самая архитектура из главы 13) обрабатывает их вместе с текстовыми токенами. Это позволяет модели «видеть» картинку и «читать» текст одновременно, находя связи между ними.

Конфликт: Почему мультимодальность – это прорыв

Чтобы понять величие момента, нужно вспомнить, как было раньше.

До GPT-4 все языковые модели были слепыми. Они могли читать текст, но если ты загружал картинку – получал ошибку. Чтобы проанализировать изображение, нужно было использовать отдельную модель компьютерного зрения (например, YOLO для распознавания объектов), а потом передавать её результаты языковой модели. Это было медленно, громоздко и неестественно.

Человек так не работает. Когда ты смотришь на мир, твой мозг обрабатывает визуальную и текстовую информацию одновременно. Ты видишь улыбку и слышишь шутку – и понимаешь, что это сарказм. Ты смотришь на график и читаешь подпись к нему – и видишь закономерность.

GPT-4 впервые приблизилась к этому человеческому способу восприятия.

Развязка: Мемы, которые поняла машина

Но самой красивой демонстрацией новых способностей стали не экзамены и не графики. Стали мемы.

OpenAI в своём блоге показала несколько примеров, которые облетели весь мир.

Пример 1: Винтажный iPhone.

На картинке был изображён современный iPhone, подключенный через переходник к огромному старинному монитору с VGA-кабелем. Человеку смешно, потому что это абсурдно: новейший телефон цепляют к древнему монитору через груду переходников. Но поймёт ли это машина?

GPT-4 объяснила: «Юмор изображения проистекает из того, насколько абсурдным оказывается подключение старого массивного разъема VGA к маленькому современному порту зарядки смартфона».

Она поняла не просто объекты (телефон, кабель, монитор). Она поняла контекст – что VGA устарел, что iPhone современен, что их соединение нелепо. Это уже не распознавание образов, это понимание культурного кода.

Пример 2: Гладильная доска на такси.

Другая картинка: мужчина гладит одежду на гладильной доске, прикреплённой к крыше движущегося такси. GPT-4: «Необычность этого изображения в том, что мужчина гладит одежду на гладильной доске, прикрепленной к крыше движущегося такси».

Она поняла абсурд ситуации. Она знает, что такси едет, что гладить на ходу опасно и странно, что это шутка.

Пример 3: Мем про нейросети.

Третий пример был сложнее – мета-мем про сами нейросети. GPT-4 объяснила, что юмор заключается в «контрасте между сложностью и специфичностью подхода к статистическому обучению и простотой и общностью подхода к нейронным сетям».

Она поняла иронию. Она поняла шутку про саму себя.

Инсайт: Что значит «понимать юмор»

Способность понимать юмор – это не просто забавная функция. Это маркер глубинного понимания контекста.

Шутки и мемы построены на:

– Несоответствии ожидаемого и реального.

– Культурных отсылках.

– Иронии и сарказме.

– Игре слов и визуальных метафорах.

Когда модель может объяснить, почему мем смешной, это значит, что она:

– Распознала объекты на картинке.

– Поняла отношения между ними.

– Связала это с внешними знаниями (что VGA – это старый стандарт, что такси не место для глажки).

– Уловила абсурдность ситуации.

Это уже не просто «классификация». Это мышление, пусть и в зачаточной форме.

Исследователи из Университета Джорджа Вашингтона проводили эксперименты: они просили GPT продолжить сложные многоходовые шутки (про кирпич, упавший с самолёта, про слона в холодильнике, про львиную вечеринку). Модель не просто отвечала – она включалась в игру, подыгрывала, развивала сюжет и даже придумывала неожиданные финалы. Это уровень не просто понимания, а соучастия в творчестве.

Триумф: Универсальный помощник

Мультимодальность открыла совершенно новые возможности применения.

1. Помощь незрячим.

Приложение Be My Eyes интегрировало GPT-4. Теперь человек с нарушением зрения может навести камеру телефона на холодильник и спросить: «Что тут есть?». Модель описывает продукты, читает этикетки, помогает ориентироваться в пространстве.

2. Образование и репетиторство.

Студент фотографирует рукописное решение задачи по математике. GPT-4 не просто даёт ответ, а объясняет, где ошибка, и предлагает правильный ход мыслей. Можно показывать ей схемы, графики, чертежи – она всё анализирует.

3. Программирование.

Разработчик показывает GPT-4 скетч интерфейса, нарисованный от руки на салфетке. Модель генерирует HTML, CSS и JavaScript код, который превращает этот скетч в работающий сайт. С нуля, без единой строчки кода, написанной человеком.

4. Анализ данных.

Бизнес-аналитик загружает в модель сложный график с множеством показателей и просит: «Объясни, почему продажи упали в третьем квартале». GPT-4 анализирует визуальные тренды и выдаёт связный отчёт.

5. Медицина.

Врач может показать модели снимок МРТ и попросить описать возможные патологии (конечно, с оговоркой, что окончательный диагноз ставит человек).

Темная сторона: Новые риски

Вместе с новыми возможностями пришли и новые страхи.

1. Приватность.

GPT-4 может распознавать лица и места на фотографиях. Это создаёт огромные риски для конфиденциальности. Если модель видит всё, что ты ей показываешь, кто гарантирует, что эти данные не будут использованы во вред?

2. Предвзятость.

Как и текстовые модели, мультимодальные ИИ впитывают предрассудки из данных. Если интернет полон стереотипных изображений, модель научится их воспроизводить. Это может привести к дискриминации при автоматическом анализе.

3. Галлюцинации.

GPT-4 по-прежнему может уверенно врать. Она может увидеть на рентгеновском снимке то, чего нет, и выдать это за факт. В чувствительных областях (медицина, безопасность) это смертельно опасно.

4. Новые виды мошенничества.

Способность анализировать изображения в реальном времени открывает дорогу для новых схем обмана. Например, подделка документов, создание фейковых видео с «пониманием» контекста.

Послесловие: GPT-4o и «Она»

В мае 2024 года OpenAI сделала следующий шаг – выпустила GPT-4o (omni – «всеохватывающий»).

Эта модель добавила к тексту и изображениям реальное время и голос. Теперь можно говорить с ИИ так, как будто разговариваешь с человеком. Модель видит твоё лицо через камеру, слышит интонации, понимает эмоции и отвечает с естественными паузами, междометиями, смехом.

Создатели не скрывали вдохновения фильмом «Она» (Her), где герой Хоакина Феникса влюбляется в голосового ассистента. Сэм Альтман написал в соцсетях просто: «она».

Голос GPT-4o звучал так естественно, что многие заподозрили, что это запись реальной актрисы. Но это была чистая генерация – с дыханием, смехом, интонациями живой речи.

Твой ход: Четыре урока от GPT-4

– Контекст решает всё. GPT-4 победила не потому, что стала больше, а потому что научилась учитывать больше контекста – визуального, культурного, эмоционального. В твоей жизни тоже: чем больше контекста ты учитываешь, тем точнее твои решения.

– Мультимодальность – это будущее. Мир не разделён на текст и картинки. Всё переплетено. Учись мыслить комплексно, соединять разные типы информации, видеть связи там, где другие видят отдельные факты.

– Юмор – признак интеллекта. Способность шутить и понимать шутки – это не просто развлечение. Это маркер того, что ты улавливаешь неочевидные связи. Развивай в себе чувство юмора – это делает умнее.

– Осторожность не помешает. Чем умнее инструмент, тем опаснее он в плохих руках. Используй силу GPT-4 во благо, помни о приватности и никогда не доверяй слепо – даже самому умному ИИ.

P.S.

Знаешь, что сказал один из пользователей, когда GPT-4 впервые объяснила ему мем?

«Я почувствовал себя так, будто мой пёс вдруг заговорил и рассказал анекдот. Сначала страшно, потом смешно, а потом думаешь: а что ещё он понимает?»

Гений кода. Истории самых впечатляющих ИИ-проектов, которые уже меняют жизнь

Подняться наверх

Читать книгу Гений кода. Истории самых впечатляющих ИИ-проектов, которые уже меняют жизнь - Ар'лан ис'Дрекхэм - Страница 20

Часть 3: Генеративная революция. Творцы, а не просто классификаторыГлава 19. GPT-4 и мультимодальность: Когда нейросеть видит картинку и понимает юмор

Часть 3: Генеративная революция. Творцы, а не просто классификаторы
Глава 19. GPT-4 и мультимодальность: Когда нейросеть видит картинку и понимает юмор