Читать книгу Гений кода. Истории самых впечатляющих ИИ-проектов, которые уже меняют жизнь - Ар'лан ис'Дрекхэм - Страница 19

Часть 3: Генеративная революция. Творцы, а не просто классификаторы
Глава 18. Stable Diffusion: Почему открытый код побеждает (Скорость и доступность)

Оглавление

Крючок: Ночь, когда всё стало бесплатным

20 августа 2022 года. Обычная суббота. Где-то в мире художники спорят о DALL-E, дизайнеры выпрашивают инвайты в Midjourney, а обычные пользователи просто смотрят на красивые картинки в соцсетях и завидуют.

В этот день небольшая команда из британского стартапа Stability AI публикует в открытом доступе ссылку на GitHub и Hugging Face.

Внутри – веса модели Stable Diffusion. Не демо-версия, не API с ограничениями, не лист ожидания. А полная, готовая к работе модель, которую любой человек с нормальным компьютером может скачать и запустить у себя.

Бесплатно. Навсегда. Без цензуры. Без ограничений.

Интернет взорвался. За первые сутки модель скачали сотни тысяч раз. За неделю – миллионы. Началась эпоха, которую позже назовут «ИИ для народа».

Герои: Сумасшедший немец и британский стартап

У Stable Diffusion необычная родословная.

Технический гений: Патрик Эссер (Patrick Esser).

Немецкий исследователь из Университета Гейдельберга, работавший в компании Runway ML. Он разработал архитектуру модели на основе латентной диффузии (Latent Diffusion Models).

Идея была гениальна: вместо того чтобы обрабатывать миллионы пикселей напрямую (что требует безумных ресурсов), сжать изображение в специальное «латентное пространство» (как в ZIP-архиве), провести там всю магию диффузии, а потом разжать обратно. Это ускорило процесс в разы.

Инвестор-визионер: Эмад Мостак (Emad Mostaque).

Британский предприниматель индийского происхождения, основатель Stability AI. Он увидел потенциал технологии и вложил деньги в то, чтобы превратить исследовательский проект в реальную модель.

Но главное решение Мостака – он настоял на открытости. В то время как OpenAI и Midjourney строили бизнес на дефиците (инвайты, лист ожидания, платный доступ), Мостак решил: «Мы выложим всё бесплатно. Пусть люди делают что хотят».

Конфликт: Закрытые сады против открытой степи

К августу 2022 года рынок генерации изображений выглядел так:

– DALL-E 2 – лучшая в понимании сложных запросов, но доступ строго по листу ожидания. Цензура жёсткая: нельзя генерировать знаменитостей, насилие, политиков.

– Midjourney – красивая, художественная, но работает только через Discord. Нет API, нет локальной версии. Тоже платная подписка.

– Imagen (Google) – ещё даже не выпущена, ходят слухи, что Google боится репутационных рисков и держит модель под замком.

Все эти модели называли «закрытыми садами» (walled gardens). Они красивы внутри, но ты можешь гулять только там, где тебе разрешили.

Stable Diffusion предложила альтернативу: открытая степь. Бери модель, запускай где хочешь, делай что хочешь.

Развязка: Технологический прорыв

Почему Stable Diffusion смогла стать открытой, а другие нет?

1. Лёгкость архитектуры.

Благодаря латентной диффузии, модель была на удивление компактной. Полные веса занимали около 2 гигабайт. Для сравнения: некоторые современные модели занимают сотни гигабайт.

Это означало, что обычный пользователь с игровой видеокартой (от 4—6 ГБ VRAM) мог запустить модель у себя на компьютере. Без интернета. Без отправки данных в облако. Полная приватность.

2. Датасет LAION.

Модель обучали на датасете LAION-5B – огромной коллекции из 5 миллиардов пар «текст-картинка», собранной некоммерческой организацией LAION (German nonprofit). Этот датасет был открытым и доступным для всех.

3. Правильная лицензия.

Stability AI выбрала лицензию, которая позволяла использовать модель для любых целей – включая коммерческие. Ты мог встроить Stable Diffusion в свой стартап, продавать генерации, создавать приложения. И это было легально.

4. Сообщество.

Как только веса упали в открытый доступ, сообщество разработчиков набросилось на них с инструментарием.

Через неделю появились:

– AUTOMATIC1111 Web UI – красивый интерфейс для запуска на домашнем компьютере.

– DreamStudio – официальный веб-интерфейс от Stability AI.

– Десятки форков, модификаций, улучшений.

Через месяц:

– ControlNet – техника, позволяющая контролировать позу, композицию, контуры (открыл китайский исследователь Львмин Чжан).

– LoRA – лёгкий способ дообучать модель на конкретные стили или объекты.

– Тысячи обученных моделей в стилях конкретных художников.

Инсайт: Почему открытый код победил

Закрытые модели (DALL-E, Midjourney) развиваются усилиями одной компании. У них есть одна команда, один план, один бюджет.

Открытая модель развивается усилиями всего мира. Тысячи разработчиков, исследователей, энтузиастов по всему миру:

– Находят баги и чинят их.

– Добавляют новые функции.

– Оптимизируют скорость.

– Создают интерфейсы.

– Обучают специализированные версии.

Эта коллективная мощь оказалась сильнее любого корпоративного бюджета.

Через полгода после релиза экосистема Stable Diffusion превосходила по возможностям любую закрытую модель. Хочешь генерировать аниме? Есть специализированная модель (Anything V3). Хочешь фотореализм? Есть (Realistic Vision). Хочешь контролировать позу? Есть ControlNet.

Midjourney оставалась красивее «из коробки», но гибкость Stable Diffusion сделала её выбором профессионалов.

Тёмная сторона: Цена свободы

Открытость принесла не только благо, но и проблемы.

1. Порнография и дипфейки.

Без цензуры люди начали генерировать всё. Включая порнографию (в том числе с лицами реальных людей) и жестокий контент. Модель стала инструментом для создания нелегальных изображений.

2. Копирование стилей.

Художники обнаружили, что их стиль можно скопировать за минуты, дообучив модель на 20—30 работах. И это легально, потому что модель открытая. Протесты художников против Stability AI были особенно яростными.

3. Политическая пропаганда.

Модель использовали для создания фейковых изображений политиков в компрометирующих ситуациях. Без цензуры остановить это невозможно.

4. Юридические риски.

Stability AI столкнулась с исками от Getty Images и отдельных художников, обвинявших компанию в нарушении авторских прав.

Эмад Мостак на это отвечал: «Мы не можем контролировать, как люди используют открытую технологию. Это как обвинять создателей ножей в том, что кто-то совершил убийство».

Наследие: Новая экосистема

Что оставила нам Stable Diffusion?

1. Демократизация ИИ.

Технология перестала быть привилегией гигантов. Любой стартап, любой энтузиаст может строить на её основе свои продукты.

2. Экосистема инструментов.

ControlNet, LoRA, DreamBooth, тысячи моделей на Civitai – всё это выросло вокруг открытого ядра.

3. Бизнес-модель «открытое ядро».

Stability AI показала, что можно зарабатывать на открытой технологии: продавать облачный доступ (DreamStudio), корпоративные лицензии, поддержку, платные версии для бизнеса.

4. Альтернативный путь развития.

Пока OpenAI и Google спорили об этике и безопасности, открытое сообщество просто делало. И сделало больше и быстрее.

Твой ход: Четыре урока от Stable Diffusion

– Открытость порождает инновации. Когда технология доступна всем, её развитие ускоряется в геометрической прогрессии. Сообщество сильнее любой корпорации.

– Контроль – это иллюзия. Закрытые модели пытаются контролировать, что можно генерировать, а что нет. Но если технология существует, рано или поздно она станет открытой. Лучше учиться жить с этим, чем строить стены.

– Гибкость важнее красоты. Midjourney красивее «из коробки», но Stable Diffusion позволяет сделать что угодно. В долгосрочной перспективе гибкость побеждает.

– Свобода требует ответственности. Открытые технологии дают возможность и для творчества, и для злоупотреблений. Выбор, как их использовать, остаётся за тобой.

P.S.

Знаешь, что сказал Эмад Мостак, когда его спросили, не боится ли он ответственности за дипфейки?

«Я боюсь. Но ещё больше я боюсь мира, где несколько корпораций контролируют всё визуальное творчество человечества. Открытость – единственный способ сохранить свободу».

Гений кода. Истории самых впечатляющих ИИ-проектов, которые уже меняют жизнь

Подняться наверх