Читать книгу Цифровая муза. Как творить и зарабатывать с ИИ - Ирина Никулина - Страница 10
ИИ для генерации картинок
ОглавлениеНа сегодняшний день существует несколько популярных и очень полезных ИИ, которые подходят для генерации иллюстраций и изображений. Вот самые известные из них:
1. Midjourney – очень популярный ИИ, работающий через Discord, специализируется на создании художественных, стилизованных, впечатляющих изображений. Отлично подходит для творческих и атмосферных картин. См. рис. 16.
Рис. 16. Midjourney
Ключевые особенности:
Фокус на креативность и артистичность – особенно силён в стилизованных, фантазийных и художественных работах.
Работает через Discord – основной интерфейс в виде бота в Discord-сервере.
Быстрое обучение – генерирует 4 варианта за 1-2 минуты.
Уникальный стиль – узнаваемая «midjourney-эстетика» с живописными, детализированными результатами.
Особенности доступа:
Платная модель – есть бесплатный пробный период, затем подписка.
Сообщество в Discord – можно видеть работы других пользователей.
Midjourney особенно популярен среди художников, дизайнеров и всех, кто хочет быстро визуализировать креативные идеи с узнаваемым «авторским» стилем.
Постоянные обновления – регулярно улучшает качество и добавляет функции (например, upscaling, вариации).
Рис. 17. Тарифный план Midjourney
Как пользоваться бесплатно: зайдите на сайт midjourney.com. Здесь можно прочитать, что это за инструмент и посмотреть работы других пользователей, которые появляются в галерее в режиме реального времени, см. рис. 16.
Нейросеть Midjourney реализована в виде бота, который работает на базе бесплатного мессенджера Discord. Для того чтобы начать пользоваться Midjourney, нужно зарегистрироваться в Discord и подключить бота к своему каналу.
Шаг 1: переход в Discord
На сайте midjourney.com нажмите кнопку Join the Beta в правом нижнем углу. Вас перебросит на Discord-сервер нейросети ― здесь будет происходить всё взаимодействие с Midjourney.
На открывшейся странице вам нужно ввести свой логин и пароль или пройти несложную процедуру регистрации.
Шаг 2: Создание сервера
Нажмите на кнопку со знаком «+» на левой панели и создайте свой сервер. В открывшемся окне Create a server выберите «Свой шаблон» (Create My Own) ― «Для меня и моих друзей» (For me and my friends). Задайте серверу имя.
Шаг 3: Переход в чат
Нажмите на белую иконку с корабликом в левом меню, чтобы перейти в чат Midjourney. Далее вам нужно перейти в блок Newcomer Room ― раздел для новых пользователей ― и выбрать в нём чат, название которого начинается с newbies.
Шаг 4: Подключение бота к серверу
В правой части экрана будет показан список участников чата. Если их не видно, то нажмите на значок с человечками в правой части верхней панели. Сначала идут члены команды, а под ними ― подключённый к чату бот: Midjourney Bot. Кликните по названию бота, чтобы добавить его на свой сервер.
В этом же окне будут перечислены основные команды, при помощи которых можно управлять ботом:
/image ― создать изображение;
/info ― посмотреть информацию о своём профиле;
/blend ― смешать два изображения в одно;
/settings ― посмотреть и изменить настройки;
/subscribe ― оформить подписку.
В открывшемся окне нажмите на кнопку «Добавить на свой сервер» (Add to Server) и в выпадающем списке выберите свой сервер, название для которого вы придумали ранее. Согласитесь с предложенными настройками и нажмите «Продолжить» (Continue).
Теперь переходите на свой сервер ― его значок находится в столбце под иконкой личных сообщений.
Шаг 5: Подключение Midjourney
На своём сервере нажмите на значок «+» слева от поля ввода текста внизу экрана и кликните по строчке «Использовать приложения» (Use Apps). В открывшемся списке в левом столбце будут перечислены все подключённые боты, в том числе и Midjourney.
Шаг 6: Настройки нейросети
Введите в текстовое поле/settings, чтобы открыть настройки бота, и нажмите Enter. В появившемся сообщении он предложит выбрать параметры, с которыми вы будете работать.
Поскольку Midjourney ― бот, то давать команды нужно при помощи текстовых операторов. Подсказка с ними появляется, если набрать в текстовой строке значок «/».
Рис. 18. Акварельный рисунок, сгенерированный Midjourney и промпт к нему, внизу вы видите – можно скопировать промпт, немного изменить под себя и использовать для генерации собственных картинок
Шаг 7: Создание картинки
Теперь введите оператор /imagine. Нажмите на эту команду и в появившемся поле prompt рядом с командной строкой можно написать ваш запрос. Чем более подробным будет запрос, тем больше нужных вам деталей включит в изображение сеть. Система сама достраивает слово-оператор по мере набора текста. Вам будет предложено принять пользовательское соглашение ― кликните по зелёной кнопке ToS.
Нажмите клавишу Enter и отправьте «задание» нейросети.
Пока что Midjourney понимает достаточно ограниченный набор русских слов, поэтому запрос нужно отправлять на английском языке. Чтобы получить промпт на английском, зайдите в переводчик, например в переводчик Яндекса и переведите свой запрос на английский язык. См. рис. 19.
Рис. 19. Перевод промпта
Права на картинки, сделанные с помощью ИИ Midjourney, прописаны в Пользовательском соглашении компании Midjourney Inc и зависят от тарифного плана подписки на сервис.
При бесплатной подписке на полученные изображения действует лицензия Creative Commons Noncommercial 4.0 Attribution International. Таким образом, делиться, изменять и распространять результаты работы нейросети можно с указанием источника, а коммерческое использование ― запрещено.
В коммерческих целях использовать картинки Midjourney можно только подписчикам платных тарифов. В принципе, это правило действует для многих ИИ.
Рис. 20. Разные по жанру картинки и видео Midjourney
2. DALL·E (от OpenAI) – ИИ-генератор изображений от компании OpenAI, создающий картинки по текстовым описаниям, этот ИИ умеет создавать высококачественные реалистичные изображения по текстовым описаниям. Хорошо подходит для разнообразных стилей и точных визуальных концепций. Хороший баланс между реализмом и креативностью.
Генеративная модель от компании OpenAI, она работает внутри чат-бота ChatGPT. Доступ к нейросети можно получить только в рамках платной подписки ChatGPT Plus. В DALL·E 3 есть два режима. В «естественном» режиме нейросеть генерирует изображения в стиле реализма предыдущей версии DALL·E 2. В «ярком» режиме картинки DALL·E 3 получаются гипер-реалистичными.
Его ключевые особенности:
Разработчик: OpenAI (создатели ChatGPT, GPT-4).
Доступ: через веб-интерфейс или API.
Технические особенности:
– Основан на архитектуре CLIP + диффузионные модели.
– Может редактировать существующие изображения, добавляя/убирая элементы.
– Поддерживает создание вариаций на основе загруженных картинок.
Практическое применение:
Реалистичные изображения: хорошо справляется с фотореалистичными сценами.
3. Stable Diffusion – открытая модель, которая позволяет генерировать красивые картинки, её можно использовать бесплатно и настраивать под свои нужды. Подходит для экспериментов, кастомизации и творческих проектов.
Ключевые особенности:
Открытый исходный код – можно бесплатно скачать и запускать локально.
Гибкость – огромное количество кастомных моделей, стилей от сообщества.
Контроль – продвинутые настройки (seed, шаги, CFG scale).
Как работает:
Локальный запуск – на своём ПК (требуется GPU, (Graphics Processing Unit) – специализированный процессор, который работает исключительно с графикой).
Онлайн-сервисы – через WebUI (Automatic1111, ComfyUI) или платформы типа DreamStudio.
Плагины – интеграция в Photoshop, Blender и др.
Преимущества:
Бесплатность – ядро полностью бесплатное.
Кастомизация – тысячи обученных сообществом моделей.
Приватность – обработка на своём устройстве.
Мощный контроль – детальные настройки генерации.
Отличия от Midjourney/DALL·E:
Технический уклон – больше для энтузиастов и разработчиков.
Сообщество – активное создание кастомных моделей и инструментов.
Локальность – не зависит от облачных сервисов.
Stable Diffusion демократизировал ИИ-генерацию изображений, позволив всем создавать, модифицировать и распространять модели свободно. Это «народный» инструмент с максимальной гибкостью, но требующий технических знаний.
Рис. 21. ИИ Stable Diffusion
4. Imagen (от Google) – ещё одна очень мощная модель для генерации изображений высокого качества, но в основном доступна ограниченным пользователям или через спецпроекты.
Imagen – мощный ИИ-генератор изображений от Google Research, известный высоким качеством и точностью следования текстовым описаниям.
Ключевые особенности:
Разработчик: Google Research
Основа: использует большие языковые модели (T5) для понимания текста и диффузионные модели для генерации.
Качество: знаменит фотографическим реализмом и точной семантикой.
Технические отличия:
Текстовый кодировщик T5 – лучше понимает сложные и детальные промпты.
Диффузионная архитектура – высокое качество и разрешение изображений.
DrawBench – специализированный бенчмарк для оценки качества.
Основные преимущества:
Высокая точность – изображения точно соответствуют описанию.
Фотографический реализм – особенно силён в реалистичных сценах.
Хорошая композиция – правильное расположение объектов.
Детализация – проработанные мелкие элементы.
Ограничения:
Не общедоступный – в основном исследовательский проект, нет публичного API.
5. Jasper Art
Сайт: https://www.jasper.ai/art
Еще одна нейросеть для генерации изображений по текстовому промпту. Создатели подчеркивают, что картинки можно использовать для коммерческих целей.
Как выбрать ИИ
Хотите стилизованные, художественные изображения – Midjourney.
Нужна точность и реализм по описанию —DALL·E 2.
Предпочитаете гибкую настройку и бесплатный доступ – Stable Diffusion.
Бесплатная генерация картинок: https://dream.ai, Алиса ИИ (бесплатная генерация картинок в Яндекс Браузере), Шедеврум (https://shedevrum.ai/text-to-image), https://jayflow.ai.
Рис. 22. Генерация картинки в Шедеврум
Более подробно практическая сторона работы ИИ с картинками будет описана в главе 6.