Читать книгу Гений кода. Истории самых впечатляющих ИИ-проектов, которые уже меняют жизнь - Ар'лан ис'Дрекхэм - Страница 17
Часть 3: Генеративная революция. Творцы, а не просто классификаторы
Глава 16. DALL-E 2 / Midjourney: Как ИИ научился рисовать и что сказали художники
ОглавлениеКрючок: Картина, победившая на конкурсе
Август 2022 года, Колорадо. Ярмарка искусств штата, ежегодный конкурс. В категории «Цифровое искусство / фотоманипуляция» жюри рассматривает работы и выбирает победителя.
Первое место получает картина «Théâtre D’opéra Spatial» («Театр космической оперы»). Это потрясающее полотно в стиле фэнтези: огромный зал в стиле барокко, через разбитый купол которого видно космическое пространство, фигуры в старинных костюмах, свет, фактура, глубина.
Жюри в восторге. Публика аплодирует.
А потом выясняется, что автора зовут Джейсон Аллен. Он не художник. Он настольный геймдизайнер, который никогда в жизни не брал в руки кисть. Свою работу он создал с помощью Midjourney – программы, генерирующей изображения по текстовому описанию.
Скандал разразился мгновенно. Художники кричали: «Это не искусство! Это читерство! Мы потратили годы, чтобы научиться рисовать, а какой-то парень напечатал текст и победил!».
Джейсон Аллен был спокоен. Он сказал: «Я создал это. Я написал сотни промптов, перебрал тысячи вариантов, отбирал, комбинировал, редактировал. Мой мозг – главный инструмент. А то, что я не держал кисть – неважно».
Мир искусства вошёл в эпоху турбулентности.
Герои: Два подхода к одной мечте
В 2022 году сразу несколько компаний представили революционные модели генерации изображений. Главных игроков было двое (и третий в тени).
DALL-E 2 (OpenAI).
Апрель 2022 года. OpenAI, создатели ChatGPT, выпускают вторую версию своей модели генерации картинок. Название – гибрид имени художника Сальвадора Дали и забавного робота ВАЛЛ-И из мультфильма Pixar.
DALL-E 2 была прорывом. Она понимала сложные запросы, генерировала фотореалистичные изображения, умела смешивать стили и объекты. За ней стояла технология CLIP (Contrastive Language-Image Pre-training) – нейросеть, которая училась сопоставлять тексты и картинки, понимая, что «синий круглый фрукт с косточкой» – это скорее всего черника.
OpenAI подошла к делу осторожно. Сначала доступ давали только по инвайтам, потом открыли лист ожидания. Только в сентябре 2022 года убрали все барьеры.
Midjourney (David Holz).
Июль 2022 года. Бывший инженер NASA Дэвид Хольц запускает свой проект. Но не как обычный сайт, а как бота в Discord. Ты заходишь на сервер, пишешь /imagine prompt: «космическая опера в стиле барокко», и через минуту бот присылает тебе 4 варианта.
Midjourney с самого начала сделала ставку на эстетику и художественность. В отличие от фотореализма DALL-E, Midjourney выдавала изображения с узнаваемым «художественным» стилем – сочным, насыщенным, часто мрачным или фантастическим. Именно это и обеспечило ей любовь художников (и победу на конкурсе).
Третий игрок: Stable Diffusion.
В августе 2022 года британский стартап Stability AI выпустил Stable Diffusion в открытый доступ. Это была революция внутри революции. Модель с открытым кодом, которую можно было скачать и запустить на своём компьютере. Бесплатно. Без ограничений. Миллионы людей установили её за несколько недель.
Конфликт: Что сказали художники
Реакция художественного сообщества была бурной и неоднозначной. Давай посмотрим на неё с помощью нашего метода трёх проекций.
Проекция программиста (Как это работает?)
Технология за всем этим великолепием называется диффузионные модели.
Представь, что ты берёшь идеальную фотографию и начинаешь добавлять на неё шум, пока она не превратится в полный хаос, как телевизор без сигнала. Диффузионная модель учится делать обратное – брать хаос и убирать шум, шаг за шагом восстанавливая картинку.
А направляет этот процесс текстовый промпт. Модель обучена на миллиардах пар «текст-картинка» (датасет LAION), и она знает, что сочетание слов «кот в шляпе» должно выглядеть примерно так.
Промпт-инжиниринг стал новым видом искусства. Люди пишут сотни слов, перебирают синонимы, добавляют имена художников, технические параметры, чтобы получить нужный результат. На онлайн-биржах продают «волшебные промпты», которые гарантированно дают красивые картинки.
Проекция философа (Что это меняет?)
Здесь начались самые горячие споры.
Аргумент 1: «Это убивает искусство»
Главный крик души художников: нейросети обучаются на наших работах без спроса и разрешения.
История с Грегом Рутковски стала символом этой проблемы. Рутковски – популярный цифровой художник, рисующий фэнтези. Его стиль оказался настолько востребован, что пользователи Midjourney начали массово добавлять «в стиле Грега Рутковски» в свои промпты. В результате его настоящее творчество стало тонуть в море подражаний. Люди искали его работы, а находили тысячи картинок, сгенерированных «под него».
Рутковски сказал: «Моё имя стало промптом. Мои работы используют, чтобы создавать конкурентов мне же. И никто меня не спросил».
Художники подали коллективные иски против Stability AI, Midjourney и других компаний, обвиняя их в «массовом нарушении авторских прав» – использовании миллионов изображений для обучения без лицензий и отчислений.
Аргумент 2: «Это не творчество, а компиляция»
Противники ИИ говорят: машина не творит, а перекомбинирует уже существующее. Она не вкладывает в работу душу, переживания, личный опыт. Искусство – это диалог между художником и зрителем, это история человека. А у машины нет истории.
Критики указывают, что ИИ легко справляется со стилями и техниками, но не умеет передать ту самую «человечность» – спонтанность, эмоциональную глубину, уникальный взгляд на мир.
Аргумент 3: «Это новый инструмент, не убивайте его»
Сторонники ИИ (и многие художники, принявшие технологию) говорят: это просто инструмент. Как фотография когда-то убила портретную миниатюру, но родила новое искусство. Как фотошоп когда-то казался «нечестным».
Пол Трилло, видеохудожник из Калифорнии, говорит: «Люди кричат, что это смерть художников. А я думаю, что это просто значит, что нам не придётся работать ночами и выходными».
Дон Аллен Стивенсон III, работавший в DreamWorks, признаётся: «Для меня это был экзистенциальный кризис в первый месяц. Я думал: „Боже, это же вся моя работа“. Но потом я понял, что это просто новый этап. Это страшно, если ты не готов меняться».
Проекция предпринимателя (Где здесь деньги?)
Бизнес-модели выстроились мгновенно.
Midjourney работает по подписке. Бесплатно – 25 картинок, потом от 10 до 60 долларов в месяц. К 2023 году это многомиллионный бизнес.
OpenAI монетизирует DALL-E через кредиты. Купил кредиты – генерируешь картинки.
Stable Diffusion выбрала другую стратегию: открытый код, а деньги на сервисах (DreamStudio), корпоративных лицензиях и инвестициях.
Shutterstock подписал соглашение с OpenAI и объявил, что будет выплачивать компенсации художникам, чьи работы использовались для обучения. Getty Images, наоборот, запретила ИИ-изображения и подала в суд на Stability AI.
Появился новый рынок – промпт-инженеры. Люди, которые умеют разговаривать с ИИ, чтобы получать идеальные картинки, зарабатывают десятки тысяч долларов. Как говорит архитектор из Zaha Hadid Architects Чхави Мехта: «Научиться составлять промпты – это целое искусство. Нужно понимать, как ИИ мыслит, какие слова сработают, как балансировать текст и веса».
Инсайт: Проблема рук и эволюция мастерства
Была одна забавная деталь, которая выдавала ИИ с головой. Руки.
Долгое время нейросети не умели рисовать руки. Пальцев могло быть шесть, семь, они могли расти из неожиданных мест, загибаться под невозможными углами. Это стало мемом и главным способом отличить ИИ-картинку от реальной.
Но технологии развиваются. Midjourney v5, вышедшая в 2023 году, наконец-то научилась рисовать руки. И это символично. Каждая новая версия стирает ещё одну границу между «подделкой» и «реальностью».
Наследие: Новый мир творчества
Что оставил нам 2022 год?
1. Демократизация творчества.
Рисовать может каждый. У тебя есть идея? Ты можешь её визуализировать за минуту. Не нужно 10 лет учиться академическому рисунку. Это открывает двери миллионам людей, у которых нет технических навыков, но есть воображение.
2. Новые профессии.
Промпт-инженер, ИИ-художник, куратор генераций. Появились люди, которые совмещают традиционные навыки с новыми инструментами. В Zaha Had Architects, например, активно используют и Midjourney, и DALL-E для проектирования.
3. Этические вопросы без ответов.
Что считать кражей, а что – вдохновением? Если человек учится на картинах старых мастеров – это норма. Если машина учится на миллионах картинок – это воровство? Где граница?
4. Кризис аутентичности.
Фотография перестала быть доказательством. Искусство перестало быть гарантией человеческого труда. Мы вступаем в эпоху, где вопрос «Это сделал человек?» будет звучать всё чаще.
Твой ход: Четыре урока от DALL-E и Midjourney
– Инструмент не определяет художника. Фотоаппарат не отменил фотографов. ИИ не отменит художников. Он просто изменит правила игры. Те, кто адаптируются, выживут и расцветут. Те, кто будут отрицать, – останутся в прошлом.
– Важна идея, а не исполнение. Раньше, чтобы воплотить идею, нужно было владеть техникой. Теперь техника есть у всех. Конкуренция переходит в плоскость замысла, концепции, уникальности видения.
– Этику нужно обсуждать. Просто запретить нельзя. Просто разрешить – страшно. Нужны новые законы, новые нормы, новое понимание авторства. Это работа для всех нас.
– Учись «разговаривать» с ИИ. Навык формулировать запросы, точно выражать свои мысли, подбирать слова становится критическим. В мире, где машины понимают текст, умение писать промпты – новая грамотность.
P.S.
Знаешь, что сказал Сэм Альтман, когда его спросили, ожидали ли они такого бума?
«Мы всегда знали, что это важно. Но чтобы настолько… Нет, не ожидали. Мы просто построили модель и наблюдали, как мир сходит с ума. Это первый раз, когда технология ИИ действительно зажгла обычных людей».