Дипфейки для бизнеса: кто и как на них будет зарабатывать?

Реклама с виртуальными моделями, цифровые телеведущие и фейковые речи президентов – реальность, которую формируют алгоритмы машинного обучения. В 2020 году технологии искусственного интеллекта глубже проникают в сферы телекоммуникаций, развлечений и формируют новые рынки. За развитием дипфейков внимательно наблюдают специалисты по кибербезопасности, расследуя новые формы мошенничества с использованием передовых технологий.

Тренды в области искусственного интеллекта дошли и до Казахстана. Вслед за китайским телевидением отечественные разработчики создали виртуального ведущего новостей, прототипом которого стал казахстанский актёр Санжар Мади. Его виртуальный двойник i-Sanj ведёт новости экономики на Atameken Business и почти не отличается от реального прототипа.

Новая индустрия

В 2017 году объём мирового рынка ИИ составил $1,58 млрд. По разным оценкам, он значительно вырастет к 2024 году (до $20,83, а то и $30,6 млрд). Если верить прогнозам консалтинговой компании Tractica, годовой доход от программного обеспечения для ИИ достигнет $126,0 млрд к 2025 году, по сравнению с $10,1 млрд в 2018 году. Прирост инвестиций демонстрируют и стартапы, использующие алгоритмы машинного обучения. В 2019 году они привлекли рекордные $26,6 млрд.

Согласно отчёту Tractica, распознавание голоса – самая выгодная область применения ИИ, а её совокупный доход с 2018 по 2025 год составит $38,8 млрд. Второе направление по ожидаемой прибыли с общим доходом в $20,5 млрд – цифровые ассистенты. В ближайшей перспективе именно они будут консультировать клиентов в разных сферах, будь то государственные учреждения, банки и call-центры.

Если прогнозы сбудутся, сервисы типа Алисы или Siri также обретут цифровое воплощение. Они будут напоминать пользователям, когда пить лекарства, предупреждать о пробках на дорогах, делиться последними новостями и подсказывать товары в магазине.

А причём тут дипфейки?

Распознавание голоса, генерация речи и создание новой внешности на основе тысяч фотографий – всё это появилось благодаря нейросетям, чаще называемых «искусственным интеллектом». На практике – это разновидность алгоритмов машинного обучения, предназначенных для решения конкретных задач. В том числе для создания цифровых образов и дипфейков. В обоих случаях используются генеративно-состязательные нейросети (GAN), создающие новый контент на основе множества шаблонов речи и изображений.

Эту технологию в 2014 году придумал студент Стэнфорда Ян Гудфеллоу, но широкую известность она получила, когда пользователь Reddit под ником Deepfakes начал подставлять лица голливудских киноактрис в порно. Интерес к новому жанру не заставил себя долго ждать, и уже к 2019 году из 14 678 дипфейков, доступных онлайн, 96% оказались порнороликами.

Дипфейки также нашли применение в развлекательных видео с кинозвёздами и мобильных приложениях типа китайского Zao, подставляющих лица пользователей вместо актёров в популярных фильмах. Невольными героями дипфейков становились и влиятельные персоны, например, Барак Обама, Дональд Трамп и Марк Цукерберг.

hightech.plus_.jpg hightech.plus

Впоследствии Facebook объявил компанию по борьбе с дипфейками, а некоторые американские штаты запретили распространение подобных видео с участием кандидатов в президенты во время предвыборной гонки. В Китае запрет на использование ИИ для создания фейковых новостей действует с 1 января 2020 года.

Как нейросети воссоздают голос и цифровое изображение человека?

В отличие от мобильных приложений с функцией faceswap (замены лиц) и шутливых роликов, продукты для бизнеса требуют более качественного синтеза речи и изображений. Например, как в социальной рекламе с Дэвидом Бекхэмом об опасности малярии. Благодаря ИИ, бывший футболист заговорил на девяти языках чужими голосами, органично подстроенными под его артикуляцию.

Также в 2019 году сервис по синтезу речи запустила компания Тимура Бекмабетов, предложив озвучивать рекламу, фильмы, книги, игры и аудиогиды голосами знаменитостей. Годом ранее китайские разработчики создали первого в мире виртуального ведущего для информационного агентства Синьхуа. Кроме голоса они также синтезировали внешность человека, и хотя в первой версии губы ведущего двигались не совсем естественно, это был прорыв.

В феврале 2020 года виртуальный ведущий появился на казахстанском телевидении, и аналогов в СНГ у него пока нет. Его разработала отечественная компания ICT service, специализирующаяся на технологиях машинного обучения. Казахстанские специалисты учли китайский опыт и за восемь месяцев подготовили коммерческий сервис.

«По сути, алгоритмы машинного обучения – это математические функции. Но дело в том, что заранее часть параметров этих функций неизвестна, их нужно подобрать. Здесь применяется статистический подход, при котором известны вводные цифры и конечный результат. Предложив алгоритму эти данные, можно подобрать недостающие компоненты так, чтобы функция полностью описывала их взаимосвязь. Для этого нужна абстрактная архитектура функции и датасет – большой объём входных и конечных данных. Соответственно, чтобы преобразовать голос одного человека в речь другого, необходимо множество голосов разных людей, а также их некое описание», – объясняет главный разработчик виртуального ведущего Вячеслав Бублик.

Вячеслав Бублик.jpg

Фото: Роман Лукьянчиков

В ходе работы над проектом команде потребовалось решить несколько ключевых задач: научить нейросеть синтезировать речь на основе текстов и выпустить видео с учётом оригинальной мимики актёра. На каждом шаге разработчики использовали различные модели машинного обучения, как открытые решения, так и собственные разработки. Также они изучили научные публикации с передовыми наработками зарубежных специалистов.

«Очень часто авторы научных статей, понимая ценность технологии, публикуют только ту часть информации, которая повысит их научный авторитет. Воспользоваться их результатами, не проделав значительную самостоятельную работу, невозможно», – говорит директор по развитию бизнеса в ICT service Сергей Панченко.

Сегей Панчеко.jpg

Фото: Роман Лукьянчиков

Генерация минутного видео в формате 4K занимала у разработчиков около трёх минут. Ускорить процесс позволили онлайн-библиотеки машинного обучения с открытым исходным кодом, такие как PyTorch для языка программирования Python. Они нужны для вычислений больших матриц и связанных с ними операций, требующих значительных вычислительных ресурсов.

Синтез и трансформация речи

Воссоздать голос конкретного человека с помощью нейросетей можно разными способами. Технология, которую использовали специалисты, синтезирует речь Санжара Мади из чужого голоса. Сначала текст ведущего необходимо озвучить. Разработчики воспользовались сервисом Yandex SpeechKit, который автоматически озвучивает загруженный текст на разных языках, предлагая на выбор несколько голосовых шаблонов.

Возможен и другой вариант, без использования внешних сервисов. Для реализации этого способа требуется многочасовой датасет с образцами голосов на требуемом языке, а не часовая видеозапись с речью актёра, которой располагали разработчики. Плюс понадобилась бы текстовая расшифровка всех голосовых записей.

«Голос любого человека можно представить, как последовательность неких чисел, например, в виде спектрограммы. В ней заложена информация об индивидуальных особенностях произношения и сказанных словах. Если представить речь двух людей в указанном виде и сравнить их, то часть параметров в этих последовательностях будет совпадать, а другая часть будет отличаться», – поясняет Вячеслав Бублик.

Проанализировав записи разных голосов, нейросеть отделит слова от характерных особенностей речи каждого спикера. То есть, чтобы воссоздать голос Санжара Мади, алгоритмам достаточно связать его уникальные голосовые характеристики с обезличенными словами, сказанными кем-то другим.

Синтез видео

Самой сложной задачей на этапе разработки было воссоздать частичную артикуляцию актёра. Она была решена с использованием модели машинного обучения Pix2Pix, управляющая контурами губ виртуального ведущего в процессе речи.

«Существуют открытые библиотеки данных, способные распознавать лица на фотографиях и выставлять на них ключевые точки. Мы разбили исходное видео с Санжаром на отдельные кадры и сформировали к ним набор точек с контурами лица. Затем в каждом кадре закрасили область рта чёрным квадратом и на нём нарисовали контуры губ, опираясь на имеющиеся данные. Таким образом, получались две фотографии – одна с исходным изображением, а вторая с нужными контурами губ», – рассказывает Вячеслав Бублик.

Научившись создавать сотни парных картинок, нейросеть может генерировать новые изображения, даже если некоторые параметры нужного кадра ей неизвестны. Система подбирает их автоматически. Чтобы контуры губ двигались синхронно произносимым словам, разработчики создали свою нейронную сеть и также обучили её по эталонному видео. Получив образец голоса, алгоритмы выдают нужные контуры губ, которые потом дорисовывает графическая модель на финальных кадрах с лицом актёра.

Перспективы и риски

Среди крупных игроков разработкой цифровых образов на базе искусственного интеллекта активно занимается Samsung. На выставке CES 2020 компания представила реалистичных виртуальных аватаров «Неонов». Они двигаются и разговаривают на разных языках, и за каждым закреплен определенный характер и роль, будь то инструктор по йоге или K-pop звезда. Неоны ещё требуют доработки, но в компании уверены, что потенциал их цифровых творений гораздо шире, чем у голосовых помощников. В них видят не только будущих докладчиков, новостных ведущих и актёров, но и полноценных собеседников и даже друзей. Конечная цель проекта – подключение и взаимодействие цифрового аватара с внешними устройствами.

Неоны.jpg

Что касается казахстанских разработчиков, результатом их работы также стал онлайн-сервис по созданию цифровых образов и трансформации речи. Чтобы получить виртуальную копию, достаточно будет загрузить на специальную платформу часовое видео с образцами речи и внешности в хорошем качестве. Создание цифрового образа – единоразовая услуга, а производство контента с виртуальным ведущим должно стоить дешевле реальных съёмок.

По мнению Сергея Панченко, в ближайшее время телеведущим не стоит опасаться цифровых конкурентов. Виртуальные двойники без запинки озвучат любой текст, но их диапазон эмоций и интонаций пока ограничен чтением нейтральных новостей. Для более сложных задач нейросетям ещё предстоит научиться интегрировать нужные эмоции в виртуальный образ. Телеканал проводит эксперимент, а его результаты во многом будет зависеть от реакции аудитории и рейтингов просмотров.

Для повышения спроса на технологии компании предстоит освоить синтез казахского языка. Пока этому препятствует отсутствие открытой базы данных с образцами речи. Не исключено, что проблему получится решить в сотрудничестве с местными научными центрами, ведущими разработки в области синтеза речи.

Другое актуальное применение технологии – выявление дипфейков. Помимо репутационных рисков и распространения слухов, подделка голосов и изображения чревата финансовыми убытками. Известен как минимум один случай, когда синтез голоса помог мошенникам украсть 243 тысячи долларов у британской компании. Злоумышленники дозвонились одному из руководителей фирмы и голосом начальника убедили его перевести деньги на подставной счёт.

«На выходе пользователи сервиса получают аудио и видеозаписи, а что они с ними дальше делают – их ответственность. Мы предоставляем только инструмент. Причем, человек, чья внешность станет прототипом при создании образа, должен дать официальное согласие на использование его изображения и голоса. Мы следим за обеспечением информационной безопасности сервиса и предоставляем услугу только авторизованным пользователям», – отмечает Сергей Панченко.

Пока правовые нормы едва успевают за развитием технологий, но очевидно, что с каждым годом искусственный интеллект будет предлагать всё более совершенные решения. Следующим этапом после генерации изображения лиц станет реалистичное копирование всего тела, а учитывая, как быстро учатся нейросети, появление новых цифровых образов не заставит себя долго ждать.