Читать книгу Муза и алгоритм. Создают ли нейросети настоящее искусство? - Лев Наумов - Страница 4

Часть I. Утро нового дня
Сумма технологии: нейронные сети, ложь и живопись

Оглавление

Честно говоря, от детального обсуждения того, что такое нейронные сети и как они устроены, хотелось бы уклониться. Во-первых, принимая во внимание магистральную тему нашего разговора, это существенно размыло бы целевую аудиторию – не всякий читатель прорвётся через текст, посвящённый одновременно программированию, биологии и культуре. Во-вторых, теоретическая и техническая стороны их устройства обсуждаются в великом множестве источников, а потому не хочется повторяться.

Для дальнейшего понимания настоящей книги достаточно отдавать себе отчёт в том, что нейронная сеть – это термин, пришедший в компьютерные технологии из биологии. Так называется система нейронов, соединённых между собой с помощью синапсов. В свою очередь, нейроны – специализированные, электрически возбудимые клетки нервной системы, предназначенные для приёма, элементарной обработки, хранения и передачи информации далее посредством электрических и химических сигналов. По сути, именно они являются структурно-функциональными единицами нервной системы. Каждый отдельный нейрон работает поразительно просто, и это не вяжется с тем, что мы называем высшей нервной деятельностью. Однако тривиальные операции превращаются в сложные решения за счёт невероятного количества участвующих элементов. Скажем, такое творческое занятие, как чтение, становится возможным в том числе и благодаря нейронной сети, связывающей зону угловой извилины со зрительными областями, а также с несколькими теменными (ответственными за количественное мышление) и затылочно-височными зонами (где происходит распознавание образов)[6].

В центре нашего разговора будут искусственные нейронные сети – математические модели, созданные для имитации определённых аспектов работы человеческого мозга при решении определённого вида задач. Они состоят из большого количества искусственных нейронов, связанных между собой искусственными синапсами. В остальном же всё происходит, как в биологическом прототипе: нейроны обрабатывают поступившую к ним через входные синапсы информацию, выполняют над ней различные функции, такие как распознавание образов, классификация или прогнозирование, а потом через выходные синапсы направляют результат далее. Нейросеть можно представить себе как систему взаимосвязанных ячеек, на каждую из которых возложены определённые вычисления.

Как правило, нейрон имеет множество неравноправных синапсов – среди них есть более и менее предпочтительные[7]. Каждой связи сопоставлен “вес”. Таким образом, “траектория” данных по сети становится вероятностным процессом, словно судьба игрока в казино. Для того чтобы определить, каким из синапсов следует воспользоваться при передаче, генерируется случайное число, и путь выбирается с учётом “желательности” каждой конкретной связи. Пройдя свой неожиданный маршрут от входа до выхода из сети, начальные данные превращаются в конечный результат. Получается, что одну из важнейших ролей в работе модели играют упомянутые веса, сопоставляемые всем синапсам и определяющие важность, а также вклад каждого отдельного нейрона. Но откуда они берутся и от чего зависят? Это самое интересное.

Прежде чем войти во “взрослую жизнь”, новорождённые нейронные сети получают “образование”, и этим они тоже похожи на людей. Ab ovo все связи каждого нейрона равноправны. “Сознание” “цифрового младенца” – чистый лист, у него отсутствуют основания для принятия решений, а потому данные проходят сквозь череду нейронов по воле беспримесного случая… И тут появляется человек новой профессии – тренер нейронных сетей.

На первых порах он оценивает каждый прецедент функционирования “своих подопечных”, и если результат соответствует входным данным и поставленной задаче, то веса всех задействованных для его получения синапсов увеличиваются, а если нет – уменьшаются. Таким образом, модель “изучает” ту предметную область, в которой ей предстоит работать, – получает “профессиональное образование”. В результате она обобщает поступающие данные, находит закономерности, что впоследствии позволит ей делать прогнозы и принимать решения. Аналогичным образом закономерности запечатлеваются и в нашем мышлении, хоть порой мы и не отдаём себе отчёта, когда руководствуемся ими.

Такова отличительная черта систем так называемого “глубокого обучения”: подобные нейронные сети можно именно “натренировать”, “привить” им определённые представления о мире, которые лягут в основу их последующей работы. При этом в них нет фиксированного алгоритма решения задач конкретного типа – они тренируются под задачи.

Если описанный принцип остался не вполне понятным, то имеет смысл обратиться к хрестоматийному примеру – “самообучающейся машине из спичечных коробков”, предложенной популяризатором науки Мартином Гарднером в культовой некогда книге “Математические досуги”[8]. Пример искусственного интеллекта, собранного без кремниевых процессоров – из картонных коробочек и бисера, – может послужить занятной иллюстрацией и сделать принцип работы довольно прозрачным, но скорее всего, именно тут зазвучат голоса скептиков: “Вы серьёзно? Так просто? Хотите сказать, что эта модель может хоть как-то воспроизводить работу мозга?” Безусловно, совершенно серьёзно. Всё дело в масштабе, в количестве нейронов, синапсов, параметров и объёме обучения. Чтобы играть в крестики-нолики, достаточно трёхсот спичечных коробков, выполняющих функции нервных клеток, и двадцати тренировочных партий в качестве базового образования. Гарднер, впрочем, предлагает оптимизированную модель для упрощённой игры, позволяющую сократить количество коробков до двадцати четырёх. Разумеется, чтобы создавать тексты, картины, музыку или видео, нужно что-то посложнее, но принцип не меняется.

Скажем, в среднестатистическом человеческом мозге восемьдесят шесть миллиардов нейронов. В остальном всё то же самое: по ходу взросления и обучения (в том числе даже не умышленного и организованного, а совершенно спонтанного, связанного с восприятием всего вокруг) в теменной коре формируется информационно-речевая модель реальности. Слово “модель” в данном случае использовано не менее правомерно, чем при обсуждении нейросетей, поскольку наши представления о мире не тождественны миру, они – лишь его отпечаток.

Не стоит поддаваться заблуждению, будто у нас в голове – реальность. Каждый человек несёт в себе лишь модель действительности. Для описания такого положения дел Стивен Хокинг предложил идею “моделезависимого реализма”[9]. Это словосочетание звучит будто название художественного направления, но обозначает куда более универсальный принцип, поскольку включает искусство (как реалистическое, так и нет) в виде частного случая. Именно наша нейронная сеть – отпечатавшаяся в теменной коре модель действительности – используется нами как в творчестве, так и при принятии любых решений. Если ответ на какой-то вопрос удаётся найти едва ли не мгновенно, даже не задумываясь, это значит, что траектория от входа к выходу оказалась чрезвычайно удачной, чуть ли не идеальной. Заметим, что такую ситуацию почти никогда не описывают приведёнными словами – чаще её связывают с интуицией.

Когда мы сталкиваемся со сложным вопросом, требующим долгих раздумий, одни и те же данные приходится гонять от входа к выходу многократно, корректируя после каждой итерации. Иногда лучше даже отложить решение, поскольку постоянный рост синапсов[10] и непрекращающееся обучение могут со временем привести к качественно новому результату. Именно потому, когда вы оказываетесь в затруднительном положении, имеет смысл пойти погулять: свежий воздух и умеренная физическая активность способствуют росту новых связей между нейронами.

Стоит отметить, что одним из самых ресурсозатратных мыслительных процессов является… порождение лжи[11]. Заметим, что здесь и далее речь идёт о серьёзном обмане вроде выдумывания более или менее развитых и правдоподобных альтернативных историй, а не о милом утвердительном ответе на вопрос “Было ли тебе вкусно?” вне зависимости от навыков хозяйки. Этику соотнесения вежливости и вранья мы в данном случае не обсуждаем. Однако факт остаётся фактом: когда человек говорит чистую правду, мозг тратит значительно меньше энергии, чем когда он лжёт. Здесь сразу следует поставить вопрос о том, существует ли принципиальная – не этическая, а физиологическая – разница между обманом и творческим вымыслом? По всей видимости, её почти нет. Действительно, когда мы врём, заметная активность возникает в префронтальной коре (поясной коре, лобных долях), связанной, помимо прочего, с непосредственным поведением. Творчество же, в зависимости от модуса, может активизировать самые разные участки мозга, безусловно, включая и префронтальные.

Какие выводы напрашиваются? Во-первых, Маяковский ничуть не преувеличивал, говоря, что “поэзия – та же добыча радия”. Сочинять стихи тяжело, это требует энергозатрат, превосходящих среднестатистические. Во-вторых, бытует мнение, будто всякий автор пишет (тексты, картины, музыку) о себе. Судя по всему, в этом есть “экономический” резон – так существенно “выгоднее”, поскольку можно меньше выдумывать. Тем не менее подобным образом поступают не все. И тут мы подходим к третьему пункту: ложь – настолько ресурсоёмкий процесс, что если она практикуется достаточно часто, то организм предпочитает к этому адаптироваться[12], чтобы снизить свои затраты. Используя уже привычную нам терминологию: нейронная сеть подстраивает приоритеты синапсов под враньё… и творчество. Они могут стать более естественными, а то и неизбежными модусами. Так возникают патологические лгуны и прирождённые художники. Однако… если создавать произведения так “накладно”, не будет ли разумным использовать технические средства, чтобы сэкономить ресурсы?

Пришло время сделать некоторое отступление. Автору этих строк доводилось нередко писать и рассуждать о самых разных вопросах искусствознания и видах искусства. Преимущественно – о литературе и кино. Существенно меньше – о музыке. И уж совсем мало – о живописи. Нейросети тоже в разной степени освоили создание произведений в каждом из этих видов, но тем не менее далее на страницах настоящей книги мы будем говорить главным образом об изобразительном искусстве и рисующих моделях. Тому есть несколько причин, обосновывающих наше решение с разных сторон. Во-первых, произведение живописи – запечатлённый момент. Готхольд Лессинг, Дени Дидро и другие мыслители высказывали одну и ту же мысль: картина ограничена единственным мгновением, она постоянна во времени и требует активного восприятия. Она говорит с нами на своём языке образов, а не на нашем языке слов, потому мы перед ней лишены форы и в каком-то смысле равны.

То, что могут современные системы искусственного интеллекта в сфере литературы, заслуживает отдельного обсуждения. Профессионалы западного книжного рынка неоднократно подтверждали, что при создании заметной части новых книг (кто-то говорит о двадцатой доле, кто-то – о четверти) уже давно используются нейронные сети не только их авторов. Так как речь об этом идёт уже лет десять, в виду имеется не столько ChatGPT (де-факто лучший инструмент в наше время), сколько его предшественники и альтернативы, о которых мало кто знал вне индустрии. Подчеркнём: суть не в том, что машины целиком пишут книги “вместо” человека от начала до конца, однако порой на звание соавтора претендовать могут вполне (выше мы обсуждали вклад чата в первый абзац). Сразу оговорим: это не хорошо и не плохо – таково естественное развитие книжного дела и в конечном итоге ремесла писателя, нравится это кому-то или нет.

Сам факт существования инструментов искусственного интеллекта, применяемых в литературе, мог бы и дальше никого особенно не волновать, оставаясь обсуждаемым лишь в среде профессионалов, если бы компания OpenAI не сделала ChatGPT достоянием широкой общественности. Ключевую роль в этом сыграл пользовательский интерфейс чата, понятный каждому человеку, умеющему обращаться с компьютером или смартфоном. Примерно в то же время на авансцену вышли и рисующие нейронные сети, которые по текстовым запросам (промптам, как их принято называть) стали создавать изображения. Тогда искусственный интеллект заговорил с людьми на таинственном, а значит, немного пугающем или хотя бы настораживающем языке визуальных образов.

Если читатель этих строк до сих пор не пробовал нарисовать что-либо в одной из нейросетей… Да, сам глагол “рисовать” может показаться спорным, но, чтобы не утонуть в кавычках и экивоках, давайте придерживаться именно такого вокабуляра. Итак, если читатель никогда не пробовал, автор настоятельно рекомендует сделать это прямо сейчас. Поскольку вашему покорному слуге неизвестно, какой на дворе год и какие средства доступны вам в данный момент, приводить ссылки вряд ли имеет смысл. Заметим лишь, что подавляющее большинство иллюстраций в настоящей книге было сгенерировано с помощью нейросети Midjourney. В отдельных случаях использовались Leonardo, Stable Diffusion разных версий, Blue Willow, Dall-E, Playground AI, Invoke AI и другие.

Более того, даже тексты запросов, породивших иллюстрации, приводить почти нет смысла – мы будем делать это лишь в тех случаях, когда важно пояснить принципы общения с моделью или особенности синтаксиса промптов. Кстати, общаться будем на английском языке. Причина тому банальна: лучшие сети тренировались именно на нём, а значит, результаты окажутся качественнее и точнее. Однако никакой проблемы для тех, кто не владеет языком, здесь нет: запросы можно переводить с помощью онлайн-переводчиков, в том числе и тех, которые тоже используют нейросети, вроде DeepL Translator[13].

Сопровождать иллюстрации промптами имело бы смысл, если бы они позволяли воспроизводить результаты, но это не так. Во-первых, большинство моделей на каждый запрос генерирует несколько вариантов произведений на выбор. Как правило, “выдача” состоит из четырёх изображений, и далеко не всегда мы будем приводить их все. А во-вторых, ни одна нейросеть никогда не повторяется. В случае очень чёткого и детерминированного задания можно представить себе ситуацию, в которой рисунки окажутся однотипными, а их сходства – очевидными, но всё же каждый останется уникальным. Вот пример (см. илл. 2) множества картинок, полученных по почти идентичным запросам. Первые четыре – это цельная выдача нейросети Midjourney на промпт “14th century villain who won the game”, то есть “злодей XIV века, который выиграл”. Для запуска генерации приведённые слова должны предваряться командой “/imagine”. Вторые четыре изображения получены по запросу “15th century villain who won the game”, потом – “16th century villain who won the game” и так далее до XXV столетия.

Заметим, что получить все эти картинки разом можно было по мультизапросу “{14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25}th century villain who won the game”, но это – для понимания синтаксиса промптов, не более. Ещё несколько практических замечаний: век лучше указывать арабскими цифрами, не римскими. Также рекомендуется избегать излишних артиклей, особенно “a”, поскольку мера неопределённости для нейросети значения не имеет.

Вглядимся в лица злодеев. Безусловно, все они разные – нет двух одинаковых как внутри отдельной выдачи, так и в целом, если рассмотреть каждое из сорока восьми изображений. В то же время очевидны некие общие качества: шрамы, возраст (мы вовсе не просили пожилого человека, но юного нам модель не предложила), спокойное или ироничное выражение лица (вплоть до клоуна или безумца), признаки власти или игры… Более того, наш незатейливый запрос позволил выявить стереотипные представления нейросети о некоем “литературном зле” в разные исторические периоды. Достаточно проследить хотя бы за одной деталью – головными уборами: монаршая корона XIV века обретает черты шутовского колпака в XV. Далее – шляпа вельможи, которая в XVII столетии уже невообразима без полей. Тогда же появляются и парики, без которых в XVIII веке злодей непредставим. XIX – время цилиндров, которые в XX постепенно уходят, хотя один вариант и дотягивает до XXI. “Современные” мерзавцы имеют признаки технократии, граничащей со стимпанком. Головные уборы – будь то цилиндр или корона – явно футуристические. Начиная с XXII века нейросети трактуют эпоху как условное “будущее” и злодеи утрачивают определённые человеческие черты (за исключением одного в XXIV столетии), походя больше на героев фантастических фильмов и компьютерных игр, что, в свою очередь, ничуть не удивительно, поскольку в ходе образования сеть наверняка получала и их портреты. Недаром великий Марк Ротко говорил: “Картина не изображает некий опыт, но является опытом”. Теми же причинами объясняются и рекуррентные черты вампира (главным образом уши), Джокера и кого-то вроде Шиннока из саги “Mortal Kombat”.

Абстрагируясь от черт, сфокусируем внимание на том, сколь полученные результаты, в сущности, разнообразны. Как же так выходит, что нейросети не повторяются? Это связано с самим принципом генерации картин с помощью так называемых диффузионных моделей. Изображения возникают из начальных условий, представляющих собой “белый шум”. Грубо говоря, на первом шаге каждая точка имеет случайный цвет. Функционирование нейросети заключается в том, что она последовательно реализует “цветовую диффузию” или удаление шума для того, чтобы “восстановить” из данного изображения ту картину, которая соответствовала бы текстовому запросу. Некоторые модели даже показывают ход этого процесса – результат последовательно проступает из мутного небытия. В каком-то смысле происходит фантастическая реставрация – восстановление того, чего не было. Однако именно здесь и кроется ответ: все итоговые изображения разные, потому что они получены из разных начальных условий. А вероятность того, что генерируемое случайным образом начальное состояние картины повторится, несколько меньше количества частиц во Вселенной[14].

Наконец, третья причина того, почему приводить запросы бессмысленно, состоит в следующем: используемые модели находятся в непрерывном развитии. Они постоянно обучаются, корректируются, оптимизируются. В ходе работы над настоящей книгой у автора этих строк случилась длительная поездка, и он не пользовался Midjourney на протяжении трёх недель. При этом уже было заготовлено некоторое количество промптов, ждавших своего часа. По возвращении выяснилось, что модель изменилась невероятно, она начала реагировать совершенно иначе, а потому продолжать развитие старых идей едва ли было возможно. Но это, в свою очередь, стало лишь поводом придумать новые.

Итак, история нейросетей-живописцев берёт своё начало много лет назад, но именно 2022 год оказался переломным и привёл к обсуждаемому (технологическому? художественному?) прорыву. Почему? Потому что сошлись два обстоятельства. Во-первых, уже давно и бурно проходили работы по распознаванию и индексированию изображений. Практически все картинки в интернете подверглись многократному анализу, позволившему определить, что именно на них изображено. Алгоритмы распознавания начали показывать невероятные результаты, эффективно и подробно характеризуя графические файлы, что было важно, в частности, для поисковых систем. Таким образом, задача преобразования картинки в текстовое описание оказалась решаемой великолепно. Сейчас распространённым учебным упражнением для начинающих программистов в сфере машинного обучения является создание программы для классификации видов цветков, запечатлённых на фото. Подчёркиваем: не родов, а видов! То есть нужно не отличить ромашки от роз и ирисов, а разделить ирисы на виргинские (iris virginica), разноцветные (iris versicolor) и щетинистые (iris setosa).

Так или иначе, возникла огромная база соответствия изображений их описаниям. Безусловно, напрашивалась мысль о том, что это поможет решить обратную задачу – получать картинку по словесному запросу. Довольно скоро последовала идея, что изображение следует не искать среди существующих, а генерировать.

И второе обстоятельсто: незадолго до того – в 2017 году – исследователями из компании “Google” (которая чуть раньше выпустила модель DeepDream, способную создавать нашумевшие, но абсолютно не антропогенные, а нарочито психоделические картинки) были предложены “генеративные трансформерные модели”, которые в диффузном поколении нейросетей позволили получать результаты иного качества[15].

Названные два обстоятельства сошлись, будто детали пазла. Чуть выше мы говорили про количество нейронов в мозге. Так вот, упомянутая база изображений, лежащая в основе обучения лучших рисующих нейросетей, на момент создания настоящей книги составляет 2,3 миллиарда картинок, в описаниях которых выделено 3,5 миллиарда понятий (параметров)[16]. И это уже серьёзно.

Может сложиться превратное впечатление, будто книга, которую вы держите в руках, посвящена вопросам прогресса. И да, и нет. Технические новации и революционные алгоритмические модели, безусловно, возникли, а значит, соответствующее развитие computer science произошло, но всё-таки появление теоретической модели генеративных трансформеров вряд ли сопоставимо с изобретением колеса или открытием того, что Земля не плоская. С точки зрения информационных технологий разрыва шаблона или ницшеанской “связи времён” не случилось – имел место очередной и, в общем, закономерный шаг вперёд. Удивительным образом для искусства, культуры и, быть может, философии произошедшее значит гораздо больше, чем для техники. Но как это охарактеризовать? Является ли случившееся “художественным прогрессом”?

Андрей Тарковский, равно как и многие другие крупные фигуранты истории прекрасного, был убеждён, что прогресс в искусстве невозможен, потому что тогда можно было бы, например, заключить, будто Томас Манн “лучше” Шекспира. Сьюзен Зонтаг, в свою очередь, заметила, что у культуры в целом не бывает прогресса, равно как регресса и даже кризиса. Дескать, любые её модусы, кажущиеся нам выдающимися или чрезвычайными, на самом деле – штатный режим её бытования. В этом отношении вопрос о том, как трактовать происходящее сейчас, как смириться и принять то, что нейронные сети создают произведения, по крайней мере претендующие на звание искусства, внезапно делает всю computer science частью культуры.

Новые возможности будто заставляют иначе взглянуть на сам ход времён. Музыкальные средства искусственного интеллекта помогут нам услышать “новую”, никогда не существовавшую песню Фредди Меркьюри, Курта Кобейна или Фрэнка Синатры, но… автор этих строк какое-то время назад продюсировал проект, связанный с сохранением чрезвычайно самобытной фольклорной традиции – пинежской песни, бытовавшей от века в Архангельской области и практически полностью утраченной[17]. И вот здесь нейросети нам не помогут ничем. Записей северных певуний осталось слишком мало, их не хватит для обучения моделей. Значит, где-то в прошлом проходит граница, за которой культурные феномены пропали навсегда.

Аналогично: помните мужчину с Красной площади, который ждал от технологий того, чтобы те “заменили” ему маму? На самом деле мечта этого человека уже осуществима, хоть, к сожалению, и не для него самого. Текстовые нейронные сети показывают невероятные результаты в том, чтобы воспроизводить не просто манеру речи, но даже ход мыслей людей, от которых осталось много букв. И это не только писатели. Наши дети (при желании) смогут общаться с нами после нашей смерти, ведь мы оставляем достаточно большой текстовый след в социальных сетях и других источниках. Обучение моделей на этом “наследии” может быть даже автоматизировано!

Время (в том числе и уже прошедшее) неожиданно начинает течь по-другому и иметь иное значение. Согласитесь, подлинные шедевры живописи многими воспринимаются как вневременные. Для большинства людей не имеет значения, в каком именно столетии Питер Брейгель написал “Охотников на снегу”, Леонардо да Винчи – “Мону Лизу”, Ян Вермеер – “Девушку с жемчужной серёжкой”, Пабло Пикассо – “Любительницу абсента”, а Эдвард Мунк – “Крик”. В глазах среднестатистического зрителя эти полотна относятся к монолитной категории шедевров приятно замшелого и в меру однородного прошлого, хотя они охватывают диапазон в четыре столетия истории живописи. Эту “ненужную”, “рудиментарную” для многих ось времени становится невозможно игнорировать именно сейчас.

Оскар Уайльд писал: “Искусство создаёт великие архетипы, по отношению к которым всё сущее есть лишь незавершённая копия”. Только представьте, какие последствия может иметь ситуация, в которой “великие архетипы” могут возникать едва ли не автоматически… Нежное сомнение Чжуан Чжоу по поводу того, кто он – мыслитель, которому снится, будто он – мотылёк, или же, напротив, мотылёк, которому пригрезилось, будто он – Чжуан Чжоу, покажется милой шуткой.

Уайльд развивает свою доктрину так: “Искусство, – дескать, – создаётся для жизни, а не жизнь для искусства”. Это утверждение тоже имеет немалое отношение к обсуждаемому вопросу, ведь если жизнь не является источником или ресурсом искусства, значит последнее может порождаться чем-то, не принадлежащим к категории живого. При этом созданные таким образом плоды будут питать жизнь, становясь темами книг, экспонатами выставок и даже предметами переживаний, поглощая в том числе и наиболее ценный ресурс бытия – время. Поглощая его нещадно и, быть может, даже несправедливо, поскольку темпоральные затраты нейросетей на создание своих произведений несоизмеримы не только с затратами людей-авторов, но даже с затратами людей-зрителей. Внезапно сотворить быстрее, чем рассмотреть.

Взгляните, что Midjourney создала по запросу “childhood of art through Malevich’s black square” (см. илл. 3 и 4). Автор этих строк назвал получившиеся картины <Детство “Чёрного квадрата”> вариации 1 и 2, соответственно. Как можно видеть, названия не совпадают с запросами, и в таких случаях мы будем использовать вместо кавычек-лапок японские кагикакко, которые в Стране восходящего солнца применяются для выделения косвенной речи. Мы тоже с их помощью станем маркировать некую необычную степень иносказательности. Вариации же мы будем обозначать с помощью символа #.

Обсуждения с довольно внушительной аудиторией дают вашему покорному слуге основания полагать, что приведённые изображения кому-то понравятся значительно больше, чем сама картина Малевича. “Детство” во многом характеризуется не столько возрастом, сколько душой, манифестацией чистоты, яркости, оставляемым с годами “раем”… Отсюда, кстати, расхожее заблуждение, будто творческий человек “сохраняет внутреннего ребёнка”. Заблуждение или метафора. Впрочем, метафора и есть заблуждение, наделённое или характеризующееся красотой.

Примечательны обе приведённые визуальные трактовки. На первой (которая автору этих строк представляется более удачной) ребёнок на переднем плане и даже стена на заднем являются как бы частью того произведения, которое, “когда вырастет”, станет иконой супрематизма. Сам же квадрат ещё не совсем чёрен, в нём есть свет и яркие тона, однако уже угадываются зачатки будущего, а слева виднеется просто его миниатюра. Впрочем, “пока” в полотне больше от Пита Мондриана, чем от Малевича. И в этом проявляется особый смысл, поскольку голландец также относится к отцам-основателям абстрактного искусства, только принципиально другого его фланга.

Чрезвычайную нежность произведению придают пенал в руке девочки и игра света в волосах, которая рифмуется с разными оттенками проступающих в интерьере прямоугольников – элементов геометрической структуры окружающего её мира, “несовершенных”, “незрелых”, “неправильных” квадратов. По всей видимости, героиня – автор полотна за своей спиной. Она пока привлекает больше внимания, чем мрак квадрата, потому что ещё не выросла.

Вторая вариация отличается уже тем, что “детство” на этой картине существует отдельно от предмета и отдельно от среды. Тут возникают мысли уже не о Мондриане, а о Марке Ротко с его теориями цвета. Да и сам Малевич рассуждал[18] по поводу доминирования цветовой стихии над всеми другими свойствами живописи. “Чёрный квадрат” в детстве вновь не был чёрным – таково довольно логичное и весьма “человеческое” решение образа. Детство – это пока не мрак, в нём присутствуют краски, и их выбор особенно интересен: здесь нет ярких и полярных цветов – багряный, горчичный, персиковый, бежевый… Они в меру тусклы, благородны и чисты. В то же время наблюдается многообразие оттенков чёрного или тёмно-серого. При этом опять же, в отличие от первой вариации, квадратная форма не является предметом становления. Она – врождённое качество.

Девочка на переднем плане – вряд ли автор, вовсе не созерцатель и, похоже, даже не участник произведения. Она – чистая аллегория, олицетворение детства, вовлекающее зрителя своим загадочным взглядом, полным спокойного безразличия.

Заметим, что две такие разные трактовки получены в одной выдаче. И подумайте, назвали ли бы вы эти картины произведениями искусства, если бы не знали, что они созданы с помощью нейросети? Если бы столкнулись с этими девочками в комфортном и тихом климате галереи, а внизу под рамой висела бы табличка с (быть может, вымышленным) именем художника? Вопрос не в том, понравились вам произведения или нет, но отказали бы вы им в праве называться искусством? Многое ли меняется от того, что вы знаете, как они появились?

Сопоставляя запрос и результат, немудрено упрекнуть нейросеть в поверхностности: дескать, изображать “детство” с помощью миловидного ребёнка – что может быть банальнее? Кстати, вот эту картину (см. илл. 5) тоже вполне можно было бы назвать <Детство “Чёрного квадрата”> – на ней изображён именно сам квадрат “до мрака”, когда в нём ещё присутствовало буйство красок и угадывалась “человечность”. Назвать можно вполне… но эта ситуация как нельзя лучше иллюстрирует значение кавычек кагикакко на страницах настоящей книги, потому что в запросе не было ни Малевича, ни детства, ни квадрата.

Приведённая картина получилась из слов: “Я предпочитаю закреплять необработанный холст на стене или на полу. Мне нужно сопротивление твёрдой поверхности. На полу мне даже проще. Так я чувствую бо́льшую близость к полотну, поскольку могу обойти его, могу работать с любой из четырёх сторон и быть буквально внутри картины. Это сродни рисованию песком, которым занимались западные индейцы. Я всё дальше ухожу от привычных инструментов художника – мольберта, палитры и кистей. Мне больше нравятся палки, мастерки, ножи и льющаяся краска или смесь краски с песком, битым стеклом или ещё каким чужеродным материалом. Когда я рисую, то не осознаю, что делаю. Картина живёт собственной жизнью, а я помогаю ей выйти наружу. Ерунда получается, только в том случае, если я теряю связь с картиной”. Это слова Джексона Поллока[19], в которых художник описывает свой творческий метод. Заметим, что результат ничуть не похож и на его работы тоже, что лишний раз заставляет задуматься, насколько авторское видение отстоит от стороннего. И дело тут вовсе не в нейросетях, ведь, согласитесь, когда вы читали приведённую цитату, ваше сознание тоже не порождало ничего похожего на полотна американского экспрессиониста. С другой стороны, это приоткрывает перспективы использования искусственного интеллекта для нужд художественной критики, но об этом мы ещё подробно поговорим.

Однако название <Детство “Чёрного квадрата”> оказывается для этой картины более чем подходящим. Честно говоря, подобный результат стал изрядной неожиданностью, в том числе для автора этих строк. И теперь переформулируем вопрос, выделенный курсивом выше: когда вы видите это произведение в книге или на стене галереи, так ли важно, в ответ на какой запрос оно получено?

Можно было бы на этом и остановиться, но предыдущая картина подала вашему покорному слуге идею того, каким он на самом деле хочет видеть “Детство «Чёрного квадрата»” – тут уже кавычки обычные, потому что речь идёт о произведении как таковом, безотносительно происхождения. На уровне образа в последней работе угадывается то, что нужно: запечатлённое, буквально прорезанное на ярком квадрате лицо имеет черты первобытного художественного произведения – это детство искусства, детство истории прекрасного. Однако само лицо не детское…

Пусть эта картина станет не итогом, а лишь промежуточным результатом на нашем творческом пути. Здесь стоит добавить, что на вход команде “/imagine” можно подавать не только слова, но и изображения. Они будут использоваться в качестве начальных условий, из которых, посредством диффузии, формируется результат. Когда произведение порождается из “белого шума”, итог становится плодом чистой случайности. Если же в качестве основы взять готовый графический файл, то появляется шанс, что результат будет, с одной стороны, иметь черты первоначального изображения, а с другой – соответствовать запросу.

Раз зашла речь, сделаем два практических замечания для тех, кто решит использовать обсуждаемую возможность: во-первых, подаваемая на вход картинка по пропорциям подгоняется под генерируемую, потому рекомендуется делать так, чтобы соотношение её сторон соответствовало настройкам запроса. По умолчанию Midjourney создаёт квадратные изображения 1024 на 1024 пикселя, но существует ключ “-ar” – от английского “aspect ratio”, – чтобы это изменить. Например, если добавить к промпту “-ar 1:2”, результаты будут прямоугольными, с указанным соотношением сторон[20]. Во-вторых, в запросах можно использовать не только множество слов, но и множество картинок. Тогда они будут комбинироваться для формирования начального состояния генерации, что, честно говоря, во многом лишает эту функцию смысла.

Однако вернёмся к детству квадрата. Высоко оценив саму идею первобытности, выраженную в лице, автор этих строк всё-таки счёл уместным придать черты ребёнка непосредственно геометрической фигуре – не разделять “детство” и отсылку к картине Малевича. Для этого используем команду “/imagine <файл_с_илл._5>[21]:: child face”. Двойное двоеточие – особый знак в синтаксисе промптов, позволяющий структурировать запрос, определяя в нём независимые части. В таком случае итог будет представлять собой ответ на каждую из этих частей. Иными словами, мы генерируем картину, в которой будут комбинироваться исходное изображение и детское лицо. При этом, поскольку некий лик с глазами, ртом и носом на работе, поданной нами в качестве начальных условий, уже присутствует, мы можем ожидать, что диффузия уведёт пиксели не так далеко.

Из полученных в первой же выдаче результатов наиболее удачным кажется такой (см. илл. 6). В выражении глаз мальчика видится трагическая обречённость, будто юный квадрат знает свою судьбу заранее, словно ребёнку известно, что он станет стариком, накрытым могильной плитой – такой же по форме, как он сам, – и малыш не сопротивляется – ведь что толку сопротивляться? Удивительно поэтичную и подходящую мину нетрудно счесть случайностью. По сути, она ею и является. Можно говорить о том, что подобное выражение глаз статистически ожидаемо и это сыграло свою роль, но… Повторим ещё раз стремительно набивающий оскомину вопрос: имеет ли это значение, когда вы просто смотрите на эту картину?

Итак, автору этих строк последнее изображение кажется безусловной творческой удачей, а значит, именно ему он дал бы название <Детство “Чёрного квадрата”>, признав окончательным итогом, и на том закончил. Однако у кого-то может быть иное мнение, и ему полученный результат тоже покажется лишь этапом на пути. Скажем, имярек сочтёт уместным уйти от страдальческого выражения лица и даже от живописной природы “детства”, сделав его принципиально другим. Заметим, было бы довольно странным, если бы с квадрата смотрела физиономия живого ребёнка. Какие тогда варианты? Кукла! Человекоподобное, но не человечное создание, подменяющее гуманность антропоморфностью, являющееся лишь субститутом, макетом, маской. В общем, кому-то придётся по душе (именно по душе!) такой вариант (см. илл. 7) с лицом проданной или непроданной куклы – пластмассового изделия, пушистость ресниц и налитость губ которого зависят не от судьбы или генетики, а от эскиза.

Те же, кому всё-таки понравился мальчик с илл. 6, но кто остался при мнении, что детство всё-таки лучше воплотить через женский образ, могут признать окончательной такую картину (см. илл. 8). Однако важно даже не то, что это девочка. У неё невероятное выражение глаз: оно уже не просто трагическое – в нём живое горе. Значение имеет и цветовое решение – создаётся впечатление, будто ранее (быть может, до рождения героини) квадрат был белым. Уже совсем ясно проступает чрезвычайно востребованный и распространённый в культуре мотив взросления как бегства из рая. И в данном случае известен даже конечный пункт назначения…

6

Вулф М. Пруст и кальмар. Нейробиология чтения. М.: КоЛибри, 2020. С. 48.

7

Во многих моделях нейроны имеют множество входов и один выход. Эта редукция не так существенно сказывается на возможностях и результате, но заметно упрощает представление. Тогда сеть удобно организовать в слои последовательной обработки.

8

Гарднер М. Самодельная самообучающаяся машина из спичечных коробков // Гарднер М. Математические досуги. М.: Мир, 1972. С. 166–180. (Однако нет нужды идти в библиотеку – этот текст в разных переводах широко представлен в интернете.)

9

Хокинг С., Млодинов Л. Высший замысел. Взгляд астрофизика на сотворение мира. М.: АСТ, 2020.

10

Бывают цифровые нейросети, которые моделируют и этот процесс.

11

Herbert W. We’re Only Humans: The Burden of Lying // Scientific American. Mind. 2011. Vol. 22. № 6. P. 67; Brain Activity during Simulated Deception: An Event-Related Functional Magnetic Resonance Study / D. D. Langleben et al. // NeuroImage. 2002. № 15. Pp. 727–732.

12

Garrett N., Lazzaro S., Ariely D., Sharot T. The brain adapts to dishonesty // Nature Neuroscience. 2016. № 19(12). Pp. 1727–1732.

13

https://www.deepl.com/translator.

14

При разрешении изображения 1024 на 1024 пикселя (как в случае Midjourney по умолчанию) и строго чёрно-белом шуме вероятность повторения составляет 2–1048576, или примерно 10–315625. Количество частиц во Вселенной имеет порядок 1080.

15

Дважды “иного”. На момент начала работы над настоящей книгой трансформерные модели не демонстрировали способности к генерации принципиально нового знания в строгом смысле. Когда черновик рукописи ещё не был дописан, они уже умели это делать.

16

Для сравнения: в текстовой модели ChatGPT четвёртой версии порядка 175 миллиардов параметров.

17

См. https://camelstudio.ru/pinega.

18

См. эссе “От кубизма к супрематизму: новый живописный реализм” (1916).

19

Как и прежде, запрос был сделан на английском языке, процитирован по оригиналу, но переложен в косвенную речь, чтобы художник – то есть упоминаемое “я” – не оказался на картине. Выше слова Поллока приведены по-русски для лучшего понимания возникновения образа.

20

Не стоит думать, будто при этом увеличатся детализация и количество пикселей, – модель работает так, что площадь генерируемого изображения примерно сохраняется.

21

Есть два варианта, как использовать графический файл в промпте. Во-первых, он может быть размещён в интернете и доступен по прямой ссылке, не требующей идентификации (потому социальные сети не подойдут). Во-вторых, его можно вставить через буфер обмена. Когда запрос введён, Midjourney закачает изображение на свои сервера и оно будет доступно по ссылке на https://s.mj.run, что удобно для повторного использования.

Муза и алгоритм. Создают ли нейросети настоящее искусство?

Подняться наверх