Читать книгу Гений кода. Истории самых впечатляющих ИИ-проектов, которые уже меняют жизнь - Ар'лан ис'Дрекхэм - Страница 20
Часть 3: Генеративная революция. Творцы, а не просто классификаторы
Глава 19. GPT-4 и мультимодальность: Когда нейросеть видит картинку и понимает юмор
ОглавлениеКрючок: Экзамен, который сдала машина
Март 2023 года. Тысячи студентов-юристов по всей Америке в панике. Они готовились годами, платили десятки тысяч долларов за обучение, зубрили кодексы и прецеденты, чтобы сдать унифицированный экзамен на адвокатскую лицензию (Uniform Bar Exam). Это один из самых сложных профессиональных экзаменов в мире. Провал там – это крах карьеры.
И тут OpenAI тихо публикует отчёт. Их новая модель, GPT-4, сдала этот экзамен.
Но не просто сдала. Она вошла в топ-10% лучших результатов. В то время как предыдущая версия, GPT-3.5, плелась в худших 10%.
Разрыв был колоссальным. За один год модель перешла из категории «троечников» в категорию «круглых отличников». Но самое шокирующее было не в этом. Самое шоковое – GPT-4 сдавала экзамен, видя не только текст, но и картинки, диаграммы, скриншоты.
Она смотрела на условия задачи, нарисованные в виде схемы, и выдавала решение. Она анализировала графики, читала подписи к фотографиям, понимала мемы. Это был момент, когда ИИ перестал быть слепым.
Герои: Команда, которая научила ИИ видеть
За GPT-4 стояла всё та же команда OpenAI, которую мы уже хорошо знаем. Но масштаб был совсем иным.
Если GPT-3 (2020) была просто большой языковой моделью (175 миллиардов параметров), которая работала только с текстом, то GPT-4 стала мультимодальной (LMM – Large Multimodal Model). Это означало, что она училась на тексте и на картинках одновременно, связывая слова с визуальными образами.
Точное количество параметров GPT-4 OpenAI держит в секрете (по слухам, больше триллиона), но главное не в размере. Главное – в архитектуре.
Технически GPT-4 работает так: изображение «разбивается» на патчи (кусочки), превращается в последовательность токенов (как слова в тексте), и трансформер (та самая архитектура из главы 13) обрабатывает их вместе с текстовыми токенами. Это позволяет модели «видеть» картинку и «читать» текст одновременно, находя связи между ними.
Конфликт: Почему мультимодальность – это прорыв
Чтобы понять величие момента, нужно вспомнить, как было раньше.
До GPT-4 все языковые модели были слепыми. Они могли читать текст, но если ты загружал картинку – получал ошибку. Чтобы проанализировать изображение, нужно было использовать отдельную модель компьютерного зрения (например, YOLO для распознавания объектов), а потом передавать её результаты языковой модели. Это было медленно, громоздко и неестественно.
Человек так не работает. Когда ты смотришь на мир, твой мозг обрабатывает визуальную и текстовую информацию одновременно. Ты видишь улыбку и слышишь шутку – и понимаешь, что это сарказм. Ты смотришь на график и читаешь подпись к нему – и видишь закономерность.
GPT-4 впервые приблизилась к этому человеческому способу восприятия.
Развязка: Мемы, которые поняла машина
Но самой красивой демонстрацией новых способностей стали не экзамены и не графики. Стали мемы.
OpenAI в своём блоге показала несколько примеров, которые облетели весь мир.
Пример 1: Винтажный iPhone.
На картинке был изображён современный iPhone, подключенный через переходник к огромному старинному монитору с VGA-кабелем. Человеку смешно, потому что это абсурдно: новейший телефон цепляют к древнему монитору через груду переходников. Но поймёт ли это машина?
GPT-4 объяснила: «Юмор изображения проистекает из того, насколько абсурдным оказывается подключение старого массивного разъема VGA к маленькому современному порту зарядки смартфона».
Она поняла не просто объекты (телефон, кабель, монитор). Она поняла контекст – что VGA устарел, что iPhone современен, что их соединение нелепо. Это уже не распознавание образов, это понимание культурного кода.
Пример 2: Гладильная доска на такси.
Другая картинка: мужчина гладит одежду на гладильной доске, прикреплённой к крыше движущегося такси. GPT-4: «Необычность этого изображения в том, что мужчина гладит одежду на гладильной доске, прикрепленной к крыше движущегося такси».
Она поняла абсурд ситуации. Она знает, что такси едет, что гладить на ходу опасно и странно, что это шутка.
Пример 3: Мем про нейросети.
Третий пример был сложнее – мета-мем про сами нейросети. GPT-4 объяснила, что юмор заключается в «контрасте между сложностью и специфичностью подхода к статистическому обучению и простотой и общностью подхода к нейронным сетям».
Она поняла иронию. Она поняла шутку про саму себя.
Инсайт: Что значит «понимать юмор»
Способность понимать юмор – это не просто забавная функция. Это маркер глубинного понимания контекста.
Шутки и мемы построены на:
– Несоответствии ожидаемого и реального.
– Культурных отсылках.
– Иронии и сарказме.
– Игре слов и визуальных метафорах.
Когда модель может объяснить, почему мем смешной, это значит, что она:
– Распознала объекты на картинке.
– Поняла отношения между ними.
– Связала это с внешними знаниями (что VGA – это старый стандарт, что такси не место для глажки).
– Уловила абсурдность ситуации.
Это уже не просто «классификация». Это мышление, пусть и в зачаточной форме.
Исследователи из Университета Джорджа Вашингтона проводили эксперименты: они просили GPT продолжить сложные многоходовые шутки (про кирпич, упавший с самолёта, про слона в холодильнике, про львиную вечеринку). Модель не просто отвечала – она включалась в игру, подыгрывала, развивала сюжет и даже придумывала неожиданные финалы. Это уровень не просто понимания, а соучастия в творчестве.
Триумф: Универсальный помощник
Мультимодальность открыла совершенно новые возможности применения.
1. Помощь незрячим.
Приложение Be My Eyes интегрировало GPT-4. Теперь человек с нарушением зрения может навести камеру телефона на холодильник и спросить: «Что тут есть?». Модель описывает продукты, читает этикетки, помогает ориентироваться в пространстве.
2. Образование и репетиторство.
Студент фотографирует рукописное решение задачи по математике. GPT-4 не просто даёт ответ, а объясняет, где ошибка, и предлагает правильный ход мыслей. Можно показывать ей схемы, графики, чертежи – она всё анализирует.
3. Программирование.
Разработчик показывает GPT-4 скетч интерфейса, нарисованный от руки на салфетке. Модель генерирует HTML, CSS и JavaScript код, который превращает этот скетч в работающий сайт. С нуля, без единой строчки кода, написанной человеком.
4. Анализ данных.
Бизнес-аналитик загружает в модель сложный график с множеством показателей и просит: «Объясни, почему продажи упали в третьем квартале». GPT-4 анализирует визуальные тренды и выдаёт связный отчёт.
5. Медицина.
Врач может показать модели снимок МРТ и попросить описать возможные патологии (конечно, с оговоркой, что окончательный диагноз ставит человек).
Темная сторона: Новые риски
Вместе с новыми возможностями пришли и новые страхи.
1. Приватность.
GPT-4 может распознавать лица и места на фотографиях. Это создаёт огромные риски для конфиденциальности. Если модель видит всё, что ты ей показываешь, кто гарантирует, что эти данные не будут использованы во вред?
2. Предвзятость.
Как и текстовые модели, мультимодальные ИИ впитывают предрассудки из данных. Если интернет полон стереотипных изображений, модель научится их воспроизводить. Это может привести к дискриминации при автоматическом анализе.
3. Галлюцинации.
GPT-4 по-прежнему может уверенно врать. Она может увидеть на рентгеновском снимке то, чего нет, и выдать это за факт. В чувствительных областях (медицина, безопасность) это смертельно опасно.
4. Новые виды мошенничества.
Способность анализировать изображения в реальном времени открывает дорогу для новых схем обмана. Например, подделка документов, создание фейковых видео с «пониманием» контекста.
Послесловие: GPT-4o и «Она»
В мае 2024 года OpenAI сделала следующий шаг – выпустила GPT-4o (omni – «всеохватывающий»).
Эта модель добавила к тексту и изображениям реальное время и голос. Теперь можно говорить с ИИ так, как будто разговариваешь с человеком. Модель видит твоё лицо через камеру, слышит интонации, понимает эмоции и отвечает с естественными паузами, междометиями, смехом.
Создатели не скрывали вдохновения фильмом «Она» (Her), где герой Хоакина Феникса влюбляется в голосового ассистента. Сэм Альтман написал в соцсетях просто: «она».
Голос GPT-4o звучал так естественно, что многие заподозрили, что это запись реальной актрисы. Но это была чистая генерация – с дыханием, смехом, интонациями живой речи.
Твой ход: Четыре урока от GPT-4
– Контекст решает всё. GPT-4 победила не потому, что стала больше, а потому что научилась учитывать больше контекста – визуального, культурного, эмоционального. В твоей жизни тоже: чем больше контекста ты учитываешь, тем точнее твои решения.
– Мультимодальность – это будущее. Мир не разделён на текст и картинки. Всё переплетено. Учись мыслить комплексно, соединять разные типы информации, видеть связи там, где другие видят отдельные факты.
– Юмор – признак интеллекта. Способность шутить и понимать шутки – это не просто развлечение. Это маркер того, что ты улавливаешь неочевидные связи. Развивай в себе чувство юмора – это делает умнее.
– Осторожность не помешает. Чем умнее инструмент, тем опаснее он в плохих руках. Используй силу GPT-4 во благо, помни о приватности и никогда не доверяй слепо – даже самому умному ИИ.
P.S.
Знаешь, что сказал один из пользователей, когда GPT-4 впервые объяснила ему мем?
«Я почувствовал себя так, будто мой пёс вдруг заговорил и рассказал анекдот. Сначала страшно, потом смешно, а потом думаешь: а что ещё он понимает?»