2925 просмотров

Дипфейки для бизнеса: кто и как на них будет зарабатывать?

«Курсив» разбирается, как создают цифровые образы, почему это перспективный бизнес и какая роль в нём отведена дипфейкам

Фото: Shutterstock.com

Реклама с виртуальными моделями, цифровые телеведущие и фейковые речи президентов – реальность, которую формируют алгоритмы машинного обучения. В 2020 году технологии искусственного интеллекта глубже проникают в сферы телекоммуникаций, развлечений и формируют новые рынки. За развитием дипфейков внимательно наблюдают специалисты по кибербезопасности, расследуя новые формы мошенничества с использованием передовых технологий.

Тренды в области искусственного интеллекта дошли и до Казахстана. Вслед за китайским телевидением отечественные разработчики создали виртуального ведущего новостей, прототипом которого стал казахстанский актёр Санжар Мади. Его виртуальный двойник i-Sanj ведёт новости экономики на Atameken Business и почти не отличается от реального прототипа.

Новая индустрия

В 2017 году объём мирового рынка ИИ составил $1,58 млрд. По разным оценкам, он значительно вырастет к 2024 году (до $20,83, а то и $30,6 млрд). Если верить прогнозам консалтинговой компании Tractica, годовой доход от программного обеспечения для ИИ достигнет $126,0 млрд к 2025 году, по сравнению с $10,1 млрд в 2018 году. Прирост инвестиций демонстрируют и стартапы, использующие алгоритмы машинного обучения. В 2019 году они привлекли рекордные $26,6 млрд.

Согласно отчёту Tractica, распознавание голоса – самая выгодная область применения ИИ, а её совокупный доход с 2018 по 2025 год составит $38,8 млрд. Второе направление по ожидаемой прибыли с общим доходом в $20,5 млрд – цифровые ассистенты. В ближайшей перспективе именно они будут консультировать клиентов в разных сферах, будь то государственные учреждения, банки и call-центры.
 
Если прогнозы сбудутся, сервисы типа Алисы или Siri также обретут цифровое воплощение. Они будут напоминать пользователям, когда пить лекарства, предупреждать о пробках на дорогах, делиться последними новостями и подсказывать товары в магазине.

А причём тут дипфейки?

Распознавание голоса, генерация речи и создание новой внешности на основе тысяч фотографий – всё это появилось благодаря нейросетям, чаще называемых «искусственным интеллектом». На практике – это разновидность алгоритмов машинного обучения, предназначенных для решения конкретных задач. В том числе для создания цифровых образов и дипфейков. В обоих случаях используются генеративно-состязательные нейросети (GAN), создающие новый контент на основе множества шаблонов речи и изображений.
 
Эту технологию в 2014 году придумал студент Стэнфорда Ян Гудфеллоу, но широкую известность она получила, когда пользователь Reddit под ником Deepfakes начал подставлять лица голливудских киноактрис в порно. Интерес к новому жанру не заставил себя долго ждать, и уже к 2019 году из 14 678 дипфейков, доступных онлайн, 96% оказались порнороликами.

статистика порно дипфейки.png 
 
Дипфейки также нашли применение в развлекательных видео с кинозвёздами и мобильных приложениях типа китайского Zao, подставляющих лица пользователей вместо актёров в популярных фильмах. Невольными героями дипфейков становились и влиятельные персоны, например, Барак Обама, Дональд Трамп и Марк Цукерберг.

hightech.plus_.jpghightech.plus

Впоследствии Facebook объявил компанию по борьбе с дипфейками, а некоторые американские штаты запретили распространение подобных видео с участием кандидатов в президенты во время предвыборной гонки. В Китае запрет на использование ИИ для создания фейковых новостей действует с 1 января 2020 года.

Как нейросети воссоздают голос и цифровое изображение человека?

В отличие от мобильных приложений с функцией faceswap (замены лиц) и шутливых роликов, продукты для бизнеса требуют более качественного синтеза речи и изображений. Например, как в социальной рекламе с Дэвидом Бекхэмом об опасности малярии. Благодаря ИИ, бывший футболист заговорил на девяти языках чужими голосами, органично подстроенными под его артикуляцию. 

Также в 2019 году сервис по синтезу речи запустила компания Тимура Бекмабетов, предложив озвучивать рекламу, фильмы, книги, игры и аудиогиды голосами знаменитостей. Годом ранее китайские разработчики создали первого в мире виртуального ведущего для информационного агентства Синьхуа. Кроме голоса они также синтезировали внешность человека, и хотя в первой версии губы ведущего двигались не совсем естественно, это был прорыв.

В феврале 2020 года виртуальный ведущий появился на казахстанском телевидении, и аналогов в СНГ у него пока нет. Его разработала отечественная компания ICT service, специализирующаяся на технологиях машинного обучения. Казахстанские специалисты учли китайский опыт и за восемь месяцев подготовили коммерческий сервис.
 

«По сути, алгоритмы машинного обучения – это математические функции. Но дело в том, что заранее часть параметров этих функций неизвестна, их нужно подобрать. Здесь применяется статистический подход, при котором известны вводные цифры и конечный результат. Предложив алгоритму эти данные, можно подобрать недостающие компоненты так, чтобы функция полностью описывала их взаимосвязь. Для этого нужна абстрактная архитектура функции и датасет – большой объём входных и конечных данных. Соответственно, чтобы преобразовать голос одного человека в речь другого, необходимо множество голосов разных людей, а также их некое описание», – объясняет главный разработчик виртуального ведущего Вячеслав Бублик.

Вячеслав Бублик.jpg

Фото: Роман Лукьянчиков

В ходе работы над проектом команде потребовалось решить несколько ключевых задач: научить нейросеть синтезировать речь на основе текстов и выпустить видео с учётом оригинальной мимики актёра. На каждом шаге разработчики использовали различные модели машинного обучения, как открытые решения, так и собственные разработки. Также они изучили научные публикации с передовыми наработками зарубежных специалистов.

«Очень часто авторы научных статей, понимая ценность технологии, публикуют только ту часть информации, которая повысит их научный авторитет. Воспользоваться их результатами, не проделав значительную самостоятельную работу, невозможно», – говорит директор по развитию бизнеса в ICT service Сергей Панченко.

Сегей Панчеко.jpg

Фото: Роман Лукьянчиков

Генерация минутного видео в формате 4K занимала у разработчиков около трёх минут. Ускорить процесс позволили онлайн-библиотеки машинного обучения с открытым исходным кодом, такие как PyTorch для языка программирования Python. Они нужны для вычислений больших матриц и связанных с ними операций, требующих значительных вычислительных ресурсов.

Синтез и трансформация речи

Воссоздать голос конкретного человека с помощью нейросетей можно разными способами. Технология, которую использовали специалисты, синтезирует речь Санжара Мади из чужого голоса. Сначала текст ведущего необходимо озвучить. Разработчики воспользовались сервисом Yandex SpeechKit, который автоматически озвучивает загруженный текст на разных языках, предлагая на выбор несколько голосовых шаблонов.

Возможен и другой вариант, без использования внешних сервисов. Для реализации этого способа требуется многочасовой датасет с образцами голосов на требуемом языке, а не часовая видеозапись с речью актёра, которой располагали разработчики. Плюс понадобилась бы текстовая расшифровка всех голосовых записей.

«Голос любого человека можно представить, как последовательность неких чисел, например, в виде спектрограммы. В ней заложена информация об индивидуальных особенностях произношения и сказанных словах. Если представить речь двух людей в указанном виде и сравнить их, то часть параметров в этих последовательностях будет совпадать, а другая часть будет отличаться», – поясняет Вячеслав Бублик.

Проанализировав записи разных голосов, нейросеть отделит слова от характерных особенностей речи каждого спикера. То есть, чтобы воссоздать голос Санжара Мади, алгоритмам достаточно связать его уникальные голосовые характеристики с обезличенными словами, сказанными кем-то другим.

Синтез видео

Самой сложной задачей на этапе разработки было воссоздать частичную артикуляцию актёра. Она была решена с использованием модели машинного обучения Pix2Pix, управляющая контурами губ виртуального ведущего в процессе речи. 

«Существуют открытые библиотеки данных, способные распознавать лица на фотографиях и выставлять на них ключевые точки. Мы разбили исходное видео с Санжаром на отдельные кадры и сформировали к ним набор точек с контурами лица. Затем в каждом кадре закрасили область рта чёрным квадратом и на нём нарисовали контуры губ, опираясь на имеющиеся данные. Таким образом, получались две фотографии – одна с исходным изображением, а вторая с нужными контурами губ», – рассказывает Вячеслав Бублик.

Научившись создавать сотни парных картинок, нейросеть может генерировать новые изображения, даже если некоторые параметры нужного кадра ей неизвестны. Система подбирает их автоматически. Чтобы контуры губ двигались синхронно произносимым словам, разработчики создали свою нейронную сеть и также обучили её по эталонному видео. Получив образец голоса, алгоритмы выдают нужные контуры губ, которые потом дорисовывает графическая модель на финальных кадрах с лицом актёра.  

Перспективы и риски

Среди крупных игроков разработкой цифровых образов на базе искусственного интеллекта активно занимается Samsung. На выставке CES 2020 компания представила реалистичных виртуальных аватаров «Неонов». Они двигаются и разговаривают на разных языках, и за каждым закреплен определенный характер и роль, будь то инструктор по йоге или K-pop звезда. Неоны ещё требуют доработки, но в компании уверены, что потенциал их цифровых творений гораздо шире, чем у голосовых помощников. В них видят не только будущих докладчиков, новостных ведущих и актёров, но и полноценных собеседников и даже друзей. Конечная цель проекта – подключение и взаимодействие цифрового аватара с внешними устройствами.

Неоны.jpg

Что касается казахстанских разработчиков, результатом их работы также стал онлайн-сервис по созданию цифровых образов и трансформации речи. Чтобы получить виртуальную копию, достаточно будет загрузить на специальную платформу часовое видео с образцами речи и внешности в хорошем качестве. Создание цифрового образа – единоразовая услуга, а производство контента с виртуальным ведущим должно стоить дешевле реальных съёмок.

По мнению Сергея Панченко, в ближайшее время телеведущим не стоит опасаться цифровых конкурентов. Виртуальные двойники без запинки озвучат любой текст, но их диапазон эмоций и интонаций пока ограничен чтением нейтральных новостей. Для более сложных задач нейросетям ещё предстоит научиться интегрировать нужные эмоции в виртуальный образ. Телеканал проводит эксперимент, а его результаты во многом будет зависеть от реакции аудитории и рейтингов просмотров.

Для повышения спроса на технологии компании предстоит освоить синтез казахского языка. Пока этому препятствует отсутствие открытой базы данных с образцами речи. Не исключено, что проблему получится решить в сотрудничестве с местными научными центрами, ведущими разработки в области синтеза речи.

Другое актуальное применение технологии – выявление дипфейков. Помимо репутационных рисков и распространения слухов, подделка голосов и изображения чревата финансовыми убытками. Известен как минимум один случай, когда синтез голоса помог мошенникам украсть 243 тысячи долларов у британской компании. Злоумышленники дозвонились одному из руководителей фирмы и голосом начальника убедили его перевести деньги на подставной счёт.

«На выходе пользователи сервиса получают аудио и видеозаписи, а что они с ними дальше делают – их ответственность. Мы предоставляем только инструмент. Причем, человек, чья внешность станет прототипом при создании образа, должен дать официальное согласие на использование его изображения и голоса. Мы следим за обеспечением информационной безопасности сервиса и предоставляем услугу только авторизованным пользователям», – отмечает Сергей Панченко.

Пока правовые нормы едва успевают за развитием технологий, но очевидно, что с каждым годом искусственный интеллект будет предлагать всё более совершенные решения. Следующим этапом после генерации изображения лиц станет реалистичное копирование всего тела, а учитывая, как быстро учатся нейросети, появление новых цифровых образов не заставит себя долго ждать.

banner_wsj.gif

346 просмотров

Четыре шага к онлайн-приватности

Советы от управляющего директора «Лаборатории Касперского» в Казахстане, Центральной Азии, странах СНГ и Балтии

Фото: Depositphotos/nuvolanevicata

Ваши почтовые ящики завалены спамом? Не знаете, куда деваться от запросов в друзья, приходящих от не пойми кого, а ваши публикации в Facebook комментируют все, кому не лень? Вас неотступно преследует реклама товаров, которые вы недавно искали в интернете? Вероятно, интернет слишком много о вас знает. Но ничего страшного – вот четыре совета, которые помогут вам сохранить приватность в сети.

1. Прежде чем что-то публиковать, подумайте

Да, не вы за собой шпионите и нарушаете собственные границы, но ваша онлайн-приватность все же начинается с вас и ваших решений: того, какой информацией вы делитесь и что оставляете при себе.

Перед тем как что-нибудь опубликовать, подумайте о последствиях: не выкладывайте на всеобщее обозрение контент, который может нарушить вашу (или чью-то еще) приватность. Вы же не выложите на Facebook ваш пароль? Вот именно. И со всем остальным так же: не нужно публиковать то, что может рассказать о вас больше, чем следует, например, адрес, личный номер телефона, адрес электронной почты и так далее.

То же касается билетов на самолет и любых документов со штрих-кодами или QR-кодами. Если вы сфотографировали билет на концерт с QR-кодом и выложили его в Instagram, считайте, что вы его уже кому-то подарили.

Если вы все же хотите выложить фото билета, позаботьтесь о том, чтобы не было видно QR-кода и номера билета – их нужно хорошенько замазать в фоторедакторе. Мы уже писали о том, как замазывать что-либо на картинке правильно, чтобы потом нельзя было прочитать информацию. Но безопаснее, конечно, ничего не выкладывать вообще.

2. Избавьтесь от слежки в браузере

Когда вы заходите на сайт, срабатывает система аналитики веб-трекер. Она следит за тем, кто и как часто посещает страницу. Как правило, эта система принадлежит какому-нибудь интернет-гиганту вроде Google или Facebook. Они используют информацию о посещенных вами сайтах, чтобы определять ваши интересы и предлагать «правильную» рекламу.

Чтобы избавиться от такого внимания, можно использовать режим «инкогнито». Но учтите, что приватный поиск скрывает не всю информацию о вас – кое-что все же будет видно сайтам, которые вы посещаете (и третьим сторонам, о которых вы даже и не подозреваете).

От чересчур любознательных сайтов и систем аналитики спасут специальные решения для блокировки веб-трекеров, например, компонент «Защита от сбора данных» в вашем антивирусном решении.

Кстати, некоторые браузеры и поисковые системы тоже собирают данные пользователей, чтобы показывать им рекламу. Не хотите такого? Тогда используйте браузер, который бережно отнесется к вашей приватности (например, Firefox), и поисковик, который не будет за вами шпионить (например, DuckDuckGo или Startpage.com). Но имейте в виду, что такая приватность требует жертв. Как правило, приватные поисковые системы выдают менее релевантные результаты, ведь они о вас ничего не знают.

У браузеров, выступающих против слежки, есть свой недостаток: несовместимость с некоторыми сайтами. Так, в Firefox некоторые страницы могут отображаться некорректно, поскольку чаще всего их адаптируют под считающийся золотым стандартом среди веб-дизайнеров браузер Google Chrome.

3. Покопайтесь в настройках социальных сетей

Социальные сети – публичные пространства, но не все публичные пространства одинаковы и не все публичные вещи следует показывать всем подряд. Во многих соцсетях можно выбрать, кто будет видеть определенный контент на вашей странице: все пользователи, только зарегистрированные, друзья и друзья друзей, только друзья и так далее.

В дополнение к этому в большинстве социальных сетей есть еще множество самых разных настроек. Вы можете, например, запретить показывать ваш профиль в результатах поиска или не дать другим пользователям отмечать вас в публикациях и писать вам сообщения. Так что если вы устали от навязчивых «друзей», спамеров и мошенников, поройтесь в настройках приватности ВКонтакте, Instagram, Facebook, TikTok, «Одноклассников», Twitter и других сервисов.

4. Удаляйте старые аккаунты, не теряя данных

Со временем у каждого из нас накапливаются десятки учетных записей, причем некоторые из них мы используем редко или вовсе забрасываем. Помните, что не все аккаунты удаляются автоматически по прошествии некоторого времени – многие из них так и остаются в сети и в какой-то момент могут стать причиной утечки ваших данных. Как вы знаете, утечки случаются чаще, чем хотелось бы.

Заведите привычку удалять аккаунты, которыми вы больше не пользуетесь и не планируете пользоваться в будущем. Делайте это безо всяких колебаний, особенно если речь идет об учетных записях, где много личных данных: профилях в социальных сетях, почтовых ящиках и аккаунтах в платежных системах.

Если вы начитались статей о приватности и готовы распрощаться со всеми или некоторыми соцсетями, имейте в виду, что это можно сделать без потери данных – обратитесь в службу поддержки сети или спросите у нас, как это сделать.

banner_wsj.gif

#Коронавирус в Казахстане

Читайте нас в TELEGRAM | https://t.me/kursivkz

Читайте свежий номер

kursiv_uz_banner_240x400.jpg