Читать книгу БТ. Баттлы терминов - Олег Лубски - Страница 12
Термины в сравнении
Дипфейк vs фейк
Дипфейк
ОглавлениеДипфейк – методика синтеза изображения или голоса или одновременно, основанная на ИИ и ОНС10.
Проще говоря, дипфейк – это статическая (фото, графика, рисунок или картина) или динамическая (фильм, ролик или трек) фальшивка.
ДИПФЕЙК. ЭТИМОЛОГИЯ
Слово «дипфейк» – производно-составное от слова «фейк». Транслитерация/транскрибация английского акронима «deepfake», который образован соединением понятий «deep learning» (в переводе – «глубинное обучение») и «fake» (в переводе – «подделка»).
Этимология слова «фейк» – по тексту главы далее.
ДИПФЕЙК. КЛАССИФИКАЦИЯ
Дипфейки как фальшивки манипулируют со статическим или динамическим контентом.
Статический контент – это прежде всего фотографии. А продукты динамических фальшивок уровня дипфейк сегодня можно разделить на три чёткие группы:
1. видео – присутствует замена лица или полностью фигуры одного человека на другого;
2. аудио – в звуковой дорожке заменяется голос фальсифицируемой персоны;
3. видео + аудио – производится замена лица и голоса одновременно.
Все вышеуказанные манипуляции осуществляются с помощью специальных программ на базе ИИ/ОНС. Чем сложнее задача – тем больше ступеней обработки/подготовки.
РЕМАРКА
Подробнее я рассказывать не буду, чтобы не плодить новых мошенников, не давать им базовый толчок знаний.
Увы, в наши дни технологии создания дипфейков мошенники очень хорошо освоили. Одни, действуя как инвесторы на стороне сил зла, набрали и продолжают набирать в свои команды тех, кому пофиг на происхождение денег, из которых они получают оплату за свою «работу». Другие, – программисты, дизайнеры, монтажёры, звукоинженеры, создатели спецэффектов и прочие профессиональные манипуляторы звуком и изображением, – инициируют мошеннические схемы сами, озлобившись на работодателей, например, из-за низкой зарплаты или недооценённости, или на соседа по причине того, что тот сильно шумит или попробовал увести жену и т. д. и т. п.
ЗАМЕТКА НА ПОЛЯХ
Если эти технологии применяются в ущерб другим, доводят до смерти даже – они опасны для общества однозначно.
В моей бизнес-практике был такой случай, увы. Когда сотрудник отдела логистики потерял свою больную мать, чьё сердце не выдержало раскрытия информации, что она отдала сто тысяч рублей (в то время это было довольно большие деньги) мошенникам якобы для спасения сына как виновника тяжёлого ДТП. А он в моей компании водил белый фордовский грузовой фургон. Выглядело всё в той манипуляции довольно правдоподобно.
Тот дипфейк, – тогда, кстати, мы их ещё не называли дипфейками, – был реализован через связь по мобильным телефонам, но уже в те времена голоса подделывались классно, правда более примитивными способами: через имитацию или частотный питч.
Давайте разберём для понимания все три вышеуказанных варианта динамических дипфейков с позиции потенциальных жертв мошенников. Тестом дальше я хотел бы помочь именно тем, кого мошенники используют (пытаются использовать) через игру на доверии, на доверчивости.
Технология дипфейка может быть использована для:
а) точечного воздействия (на конкретного человека);
б) группового воздействия (например, поддельные новости).
Но как бы мы ни классифицировали дипфейки – по сути это всегда фальсификация, подделка, обман, а иногда и дискредитация. Т. к. дипфейк как приём используют для замены и/или внедрения определённых элементов изображения и/или речи с целью создания желаемого образа.
И тогда при рассматривании/прослушивании дипфейка вы видите/слышите не настоящее изображение и/или звук, снятые/записанные как есть, а изменённые так, как этого захотел создатель или заказчик созданного, и так, чтобы получатель/зритель сего изображения и/или звука не понял обмана/не догадался о нём.
Конечно, можно дипфейки, созданные в шутку, называть авангардной вариацией шаржа. Кто-то так и называет. Но, по-моему, это какая-то странная «милота», особенно если она создана без согласия потерпевшего, т. е. как некий сюрприз.
Особенно болезненны дипфейки, когда вроде бы такие шутливые, они демонстрируются широкой аудитории. Например, выводом на экран на каком-нибудь торжестве.
Методика синтеза изображения – это соединение (сложение) слоями существующих изображений (фото и видео) с искусственно добавленными к ним. Когда слой замены накладывается по альфа-каналу сверху – это называется наложением.
В подавляющем большинстве случаев для создания таких изображений используют специально заточенные нейросети, одна часть алгоритма которых учится на реальных фотографиях (или видео) определённого объекта (субъекта) и генерирует изображение, буквально соревнуясь с другой половиной алгоритма, пока последняя не начнёт сама путать копию с оригиналом.
СПРАВКА
Первые публично известные работающие методы выявления движения и превращения в целевое видео, которое похоже на целевой образ, были представлены в начале II половины 2010-х годов. Тогда на рынке ПО впервые появились программы, генерирующие поддельные мимические изображения в режиме реального времени в исходном плоскостном (2D) видео.
Первые публично известные работающие методы противодействия дипфейкам появились на рынке ПО в самом начале 2020-х годов. Эти новые разработки позволяли определить вмешательство в видео по триггеру «фейк – не фейк» и хоть как-то с фейками и дипфейками бороться.
Голос человека подделывается через использование модифицированного алгоритма преобразования текста в речь и через компьютерную обработку аудиозаписей речи этого человека. Так создаются голосовые дипфейки. Появились уже технологии, когда достаточно сэмпла оригинала голоса длительностью 15—20 секунд.
С помощью этой технологии возможно адаптировать голоса актёров, создавать естественную речь для людей, утративших возможность говорить, начитывать аудиокниги заданными голосами, подстраивать речь под определённый акцент, создавать реалистичные видеоаватары (личностно-голосовые ассистенты). А вот злоумышленники используют голосовые дипфейки в обмане, дискредитации или дезинформации.
ДИПФЕЙКИ В ИСКУССТВЕ И РАЗВЛЕЧЕНИЯХ
Не претендую на полный охват, просто перечислю знакомые многим варианты использования:
• Дипфейк-видеоролики распространены на всех популярных видеохостингах, которые загружаются контентом от большого количества независимых и частных творцов.
• Дипфейк как технология используется в музейном пространстве. Это когда, к примеру, используются сгенерированные с помощью ИИ/ОНС прототипы авторов и репродукции их творений; выстраиваются цепочки общения с посетителями музея, а также налаживается производство комбинированных изображений типа «селфи с автором» или «селфи на фоне картины автора».
• Дипфейк-озвучание (дубляж). С помощью технологий голосовых дипфейков адаптируются голоса актёров и актрис при локализации фильмов и сериалов на ту или иную территорию. Выбор языков уже поражает.
• Новостные дипфейки. Справедливости ради стоит заметить, что они используются как развлечение редко11. Чаще спецслужбами и не в шутку.
РЕМАРКА
Дипфейк в аудиовидеопроизводстве существует даже как субжанр: дипфейк-порнография (большинством сайтов запрещён, существует в даркнете).
10
Здесь и далее по тексту книги ОНС – обучаемые нейросети.
11
В большом кино один из самых первых известных пионеров а-ля дипфейковых новостей – Орсон Уэллс и его фильм «Гражданин Кейн» (Citizen Kane, 1941).