Читать книгу Цифровая муза. Как творить и зарабатывать с ИИ - Ирина Никулина - Страница 10

ИИ для генерации картинок

Оглавление

На сегодняшний день существует несколько популярных и очень полезных ИИ, которые подходят для генерации иллюстраций и изображений. Вот самые известные из них:

1. Midjourney – очень популярный ИИ, работающий через Discord, специализируется на создании художественных, стилизованных, впечатляющих изображений. Отлично подходит для творческих и атмосферных картин. См. рис. 16.


Рис. 16. Midjourney

Ключевые особенности:

Фокус на креативность и артистичность – особенно силён в стилизованных, фантазийных и художественных работах.

Работает через Discord – основной интерфейс в виде бота в Discord-сервере.

Быстрое обучение – генерирует 4 варианта за 1-2 минуты.

Уникальный стиль – узнаваемая «midjourney-эстетика» с живописными, детализированными результатами.

Особенности доступа:

Платная модель – есть бесплатный пробный период, затем подписка.

Сообщество в Discord – можно видеть работы других пользователей.

Midjourney особенно популярен среди художников, дизайнеров и всех, кто хочет быстро визуализировать креативные идеи с узнаваемым «авторским» стилем.

Постоянные обновления – регулярно улучшает качество и добавляет функции (например, upscaling, вариации).


Рис. 17. Тарифный план Midjourney

Как пользоваться бесплатно: зайдите на сайт midjourney.com. Здесь можно прочитать, что это за инструмент и посмотреть работы других пользователей, которые появляются в галерее в режиме реального времени, см. рис. 16.

Нейросеть Midjourney реализована в виде бота, который работает на базе бесплатного мессенджера Discord. Для того чтобы начать пользоваться Midjourney, нужно зарегистрироваться в Discord и подключить бота к своему каналу.

Шаг 1: переход в Discord

На сайте midjourney.com нажмите кнопку Join the Beta в правом нижнем углу. Вас перебросит на Discord-сервер нейросети ― здесь будет происходить всё взаимодействие с Midjourney.

На открывшейся странице вам нужно ввести свой логин и пароль или пройти несложную процедуру регистрации.

Шаг 2: Создание сервера

Нажмите на кнопку со знаком «+» на левой панели и создайте свой сервер. В открывшемся окне Create a server выберите «Свой шаблон» (Create My Own) ― «Для меня и моих друзей» (For me and my friends). Задайте серверу имя.

Шаг 3: Переход в чат

Нажмите на белую иконку с корабликом в левом меню, чтобы перейти в чат Midjourney. Далее вам нужно перейти в блок Newcomer Room ― раздел для новых пользователей ― и выбрать в нём чат, название которого начинается с newbies.

Шаг 4: Подключение бота к серверу

В правой части экрана будет показан список участников чата. Если их не видно, то нажмите на значок с человечками в правой части верхней панели. Сначала идут члены команды, а под ними ― подключённый к чату бот: Midjourney Bot. Кликните по названию бота, чтобы добавить его на свой сервер.

В этом же окне будут перечислены основные команды, при помощи которых можно управлять ботом:

/image ― создать изображение;

/info ― посмотреть информацию о своём профиле;

/blend ― смешать два изображения в одно;

/settings ― посмотреть и изменить настройки;

/subscribe ― оформить подписку.

В открывшемся окне нажмите на кнопку «Добавить на свой сервер» (Add to Server) и в выпадающем списке выберите свой сервер, название для которого вы придумали ранее. Согласитесь с предложенными настройками и нажмите «Продолжить» (Continue).

Теперь переходите на свой сервер ― его значок находится в столбце под иконкой личных сообщений.

Шаг 5: Подключение Midjourney

На своём сервере нажмите на значок «+» слева от поля ввода текста внизу экрана и кликните по строчке «Использовать приложения» (Use Apps). В открывшемся списке в левом столбце будут перечислены все подключённые боты, в том числе и Midjourney.

Шаг 6: Настройки нейросети

Введите в текстовое поле/settings, чтобы открыть настройки бота, и нажмите Enter. В появившемся сообщении он предложит выбрать параметры, с которыми вы будете работать.

Поскольку Midjourney ― бот, то давать команды нужно при помощи текстовых операторов. Подсказка с ними появляется, если набрать в текстовой строке значок «/».


Рис. 18. Акварельный рисунок, сгенерированный Midjourney и промпт к нему, внизу вы видите – можно скопировать промпт, немного изменить под себя и использовать для генерации собственных картинок

Шаг 7: Создание картинки

Теперь введите оператор /imagine. Нажмите на эту команду и в появившемся поле prompt рядом с командной строкой можно написать ваш запрос. Чем более подробным будет запрос, тем больше нужных вам деталей включит в изображение сеть. Система сама достраивает слово-оператор по мере набора текста. Вам будет предложено принять пользовательское соглашение ― кликните по зелёной кнопке ToS.

Нажмите клавишу Enter и отправьте «задание» нейросети.

Пока что Midjourney понимает достаточно ограниченный набор русских слов, поэтому запрос нужно отправлять на английском языке. Чтобы получить промпт на английском, зайдите в переводчик, например в переводчик Яндекса и переведите свой запрос на английский язык. См. рис. 19.


Рис. 19. Перевод промпта

Права на картинки, сделанные с помощью ИИ Midjourney, прописаны в Пользовательском соглашении компании Midjourney Inc и зависят от тарифного плана подписки на сервис.

При бесплатной подписке на полученные изображения действует лицензия Creative Commons Noncommercial 4.0 Attribution International. Таким образом, делиться, изменять и распространять результаты работы нейросети можно с указанием источника, а коммерческое использование ― запрещено.

В коммерческих целях использовать картинки Midjourney можно только подписчикам платных тарифов. В принципе, это правило действует для многих ИИ.


Рис. 20. Разные по жанру картинки и видео Midjourney

2. DALL·E (от OpenAI) – ИИ-генератор изображений от компании OpenAI, создающий картинки по текстовым описаниям, этот ИИ умеет создавать высококачественные реалистичные изображения по текстовым описаниям. Хорошо подходит для разнообразных стилей и точных визуальных концепций. Хороший баланс между реализмом и креативностью.

Генеративная модель от компании OpenAI, она работает внутри чат-бота ChatGPT. Доступ к нейросети можно получить только в рамках платной подписки ChatGPT Plus. В DALL·E 3 есть два режима. В «естественном» режиме нейросеть генерирует изображения в стиле реализма предыдущей версии DALL·E 2. В «ярком» режиме картинки DALL·E 3 получаются гипер-реалистичными.

Его ключевые особенности:

Разработчик: OpenAI (создатели ChatGPT, GPT-4).

Доступ: через веб-интерфейс или API.

Технические особенности:

– Основан на архитектуре CLIP + диффузионные модели.

– Может редактировать существующие изображения, добавляя/убирая элементы.

– Поддерживает создание вариаций на основе загруженных картинок.

Практическое применение:

Реалистичные изображения: хорошо справляется с фотореалистичными сценами.

3. Stable Diffusion – открытая модель, которая позволяет генерировать красивые картинки, её можно использовать бесплатно и настраивать под свои нужды. Подходит для экспериментов, кастомизации и творческих проектов.

Ключевые особенности:

Открытый исходный код – можно бесплатно скачать и запускать локально.

Гибкость – огромное количество кастомных моделей, стилей от сообщества.

Контроль – продвинутые настройки (seed, шаги, CFG scale).

Как работает:

Локальный запуск – на своём ПК (требуется GPU, (Graphics Processing Unit) – специализированный процессор, который работает исключительно с графикой).

Онлайн-сервисы – через WebUI (Automatic1111, ComfyUI) или платформы типа DreamStudio.

Плагины – интеграция в Photoshop, Blender и др.

Преимущества:

Бесплатность – ядро полностью бесплатное.

Кастомизация – тысячи обученных сообществом моделей.

Приватность – обработка на своём устройстве.

Мощный контроль – детальные настройки генерации.

Отличия от Midjourney/DALL·E:

Технический уклон – больше для энтузиастов и разработчиков.

Сообщество – активное создание кастомных моделей и инструментов.

Локальность – не зависит от облачных сервисов.

Stable Diffusion демократизировал ИИ-генерацию изображений, позволив всем создавать, модифицировать и распространять модели свободно. Это «народный» инструмент с максимальной гибкостью, но требующий технических знаний.


Рис. 21. ИИ Stable Diffusion

4. Imagen (от Google) – ещё одна очень мощная модель для генерации изображений высокого качества, но в основном доступна ограниченным пользователям или через спецпроекты.

Imagen – мощный ИИ-генератор изображений от Google Research, известный высоким качеством и точностью следования текстовым описаниям.

Ключевые особенности:

Разработчик: Google Research

Основа: использует большие языковые модели (T5) для понимания текста и диффузионные модели для генерации.

Качество: знаменит фотографическим реализмом и точной семантикой.

Технические отличия:

Текстовый кодировщик T5 – лучше понимает сложные и детальные промпты.

Диффузионная архитектура – высокое качество и разрешение изображений.

DrawBench – специализированный бенчмарк для оценки качества.

Основные преимущества:

Высокая точность – изображения точно соответствуют описанию.

Фотографический реализм – особенно силён в реалистичных сценах.

Хорошая композиция – правильное расположение объектов.

Детализация – проработанные мелкие элементы.

Ограничения:

Не общедоступный – в основном исследовательский проект, нет публичного API.

5. Jasper Art

Сайт: https://www.jasper.ai/art

Еще одна нейросеть для генерации изображений по текстовому промпту. Создатели подчеркивают, что картинки можно использовать для коммерческих целей.

Как выбрать ИИ

Хотите стилизованные, художественные изображения – Midjourney.

Нужна точность и реализм по описанию —DALL·E 2.

Предпочитаете гибкую настройку и бесплатный доступ – Stable Diffusion.

Бесплатная генерация картинок: https://dream.ai, Алиса ИИ (бесплатная генерация картинок в Яндекс Браузере), Шедеврум (https://shedevrum.ai/text-to-image), https://jayflow.ai.


Рис. 22. Генерация картинки в Шедеврум

Более подробно практическая сторона работы ИИ с картинками будет описана в главе 6.

Цифровая муза. Как творить и зарабатывать с ИИ

Подняться наверх