Читать книгу Ваш карманный генИИ - - Страница 16

ГЛАВА 7: МУЛЬТИМОДАЛЬНОСТЬ: КОГДА ИИ ВИДИТ, СЛЫШИТ И ПОНИМАЕТ

Оглавление

ВСТУПЛЕНИЕ К ГЛАВЕ

До этого момента мы говорили об ИИ как о текстовом диалоговом агенте. Но его восприятие давно вышло за рамки букв. Современный ИИ – мультимодален. Он может «видеть» изображения, «слышать» аудио, «читать» схемы и таблицы.

Представьте, что вы дали слепому от рождения человеку внезапно способность видеть. Первое время он будет описывать картинку как набор странных цветных паттернов. Мультимодальный ИИ похож на такого человека: он может анализировать пиксели, формы, тексты на картинках, но его интерпретация зависит от ваших инструкций. Без них он будет фантазировать, домысливать контекст.

Это – суперсила, которая стирает границы между миром данных и миром людей. Ваша задача – стать гидом для этого только что прозревшего разума.

История-кейс: «Дизайнер, который сэкономил 20 часов на подборе референсов»

Дизайнер Алиса получила задание: создать логотип для эко-стартапа. Раньше она бы потратила часы на поиск референсов в Pinterest, Behance, Dribbble. Теперь она загрузила в GPT-4V 10 изображений природы, эко-упаковки, современных логотипов и попросила: «Проанализируй визуальные тренды на этих изображениях и предложи 5 направлений для логотипа».

Ваш карманный генИИ

Подняться наверх