Читать книгу Гайд по иллюстрации в нейросети. Версия 2.0 - Софья Мироедова, Софья Андреевна Мироедова - Страница 2
Предисловие
ОглавлениеНаверняка вы уже не просто наслышаны о нейросетях, но и не раз пробовали их в действии. Я начала работать с визуальными сетями, и, в частности с Midjourney, летом 2022 года и успешно интегрирую их в работу дизайнера и иллюстратора до сих пор. В этом гайде я попробую понятно объяснить, как работает технология.
Лучше всего это, конечно, объяснит специалист, но вкратце, нейросеть обрабатывает колоссальные массивы данных, выделяет паттерны и использует их в дальнейшей работе. На этом подходе основаны не только визуальные и текстовые ИИ, но и многие другие, которые уже плотно вошли в нашу жизнь. Так, Midjourney, Dall-E и Stable Diffusion учились на полотнах великих мастеров, фотографиях и иллюстрациях, лежащих в интернете в свободном доступе. Сейчас начались суды по поводу нелегитимного использования работ, защищённых авторским правом, которые каким-то образом попали в алгоритм. Однако это зыбкая почва, и я не завидую юристам, которые разбирают эти дела.
Алгоритмы на основе машинного обучения сегодня начали называть Diffusion, или диффузией. Здесь нет ничего общего с физикой 7 класса. Почти нет.
Процесс этой диффузии состоит из трёх фаз:
1. Картинкам для обучения сети присваивается точное текстовое описание.
2. Алгоритм превращает эту картинку в белый шум.
3. Восстанавливает картинку из этого шума.
Изначально, если запрос совпадал с описанием исходного изображения, на котором училась нейронка, она должна была выдать ту самую оригинальную картинку, нарушая права автора. Чтобы избежать этого и добавить разнообразия в результаты, разработчики подмешивают случайные образы в процессе генерации. Так, мы и получили массу интригующих иллюстраций.