Перейти к основному содержанию

1198 просмотров

Технология stream-вещания окончательно переформатировала музыкальный рынок

CD и скачивания уходят в прошлое

Фото: Shutterstock

Американская ассоциация звукозаписывающих компаний (RIAA) опубликовала финансовые итоги 2019 года. Общие розничные продажи музыкальной индустрии США достигли показателя в $11,1 млрд. Это на 13% больше результата 2018 года. 

Важно отметить и качественный результат: главный доход индустрия получила от развития музыкального вещания через интернет – $8,8 млрд (79,5% всех доходов рынка). Это больше, чем весь американский музыкальный бизнес заработал в 2017 году. 

14-музыка-покоряет-онлайн-01_0.png

Люди живут в музыкальных потоках 

Стриминговое (stream), или потоковое, вещание включает в себя весь звуковой контент, который мы получаем через интернет-онлайн. Это прослушивание музыки или просмотр видеоклипов, подключение к интернет-радиостанциям или подкастам. 

Популярность потокового вещания растет пять лет подряд. В 2019 году армия платных подписчиков в США выросла на треть и составила 60,4 млн человек (в 2015 году подписчиков было менее 11 млн человек). В целом они отдали музыкальной индустрии страны $6,8 млрд, что составило 61% всей выручки.

Stream не стоит путать с платным скачиванием контента для последующего прослушивания офлайн. Это другая графа дохода, на долю которой приходится 8% рынка, или $856 млн. Скачивание музыкальных альбомов принесло $395 млн, отдельных треков – $415 млн. В целом в этом сегменте падение продаж в сравнении с 2018 годом составило 18%.

Впервые с 2006 года пользователи заплатили за эту услугу меньше $1 млрд.   

Физические носители (компакт-диски и виниловые пластинки) пока держат второе место по прибыльности. На их долю в США пришлось 10% доходов, или $1,15 млрд. Интересно, что продажи компакт-дисков в сравнении с предыдущим годом упали на 0,6% (до $615 млн), а грампластинки, напротив, показали рост на 19% ($504 млн).

Наконец, 2% дохода индустрии составила синхронизация продаж, то есть извлечение прибыли через разные каналы. Например, использование произведений и их элементов в кино, рекламе, компьютерных играх и так далее.

Меломанами считают себя 54% 

По данным Международной федерации производителей фонограмм (IFPI), 54% людей считают себя любителями музыки. В возрастной категории от 16 до 24 лет таковых еще больше – 63%. При этом средний меломан тратит на прослушивание музыки 18 часов в неделю. Согласно опросам IFPI, 64% людей слушают музыку онлайн, причем наиболее растущая группа любителей стрим-трансляций за возрастной категорией от 35 до 64 лет. 

Музыкальная индустрия демонстрирует разные модели извлечения прибыли на основе stream-вещания. Выбор нужного канала – дело непростое и строится на индивидуальных предпочтениях.  

Если важно количество доступных произведений, то безусловный лидер – Sound Cloud – 125 млн композиций, на втором месте находится TIDAL – 60 млн треков и 250 тыс. видеоклипов, на третьем – Apple Music, 60 млн треков. Стоит учитывать битрейт – качество воспроизводимой музыки. В этом смысле хороши Deezer (1411 Кбит/сек на условиях платной подпис­ки), TIDAL, Spotify и Яндекс.Музыка – при платной подписке выдают 320 Кбит/сек. 

Если учитывать длительность бесплатного пробного периода, самые оптимальные – Яндекс.Музыка, Apple Music и Deezer (3 месяца). Любителям видеоконтента показаны Youtube и Vevo, самые популярные потоковые радиостанции – Beats 1, Pandora Plus и SiriusXM. По принципу социальных сетей на основе музыкальных пристрастий работают Mix Cloud или MySpace.   

Какой стрим выбрать в Казахстане

Наиболее доступные в Казахстане сервисы – Яндекс.Музыка (142 рубля в месяц, или 849 тенге), Boom (ВКонтакте) и Zvook (150 рублей в месяц, по текущему курсу около 850 тенге), а также Deezer (ежемесячная оплата эквивалентна $2,49). Региональный менеджер Яндекс.Музыки в Казахстане Эдуард Габриелян говорит, что рынок музыкального стриминга в стране постоянно расширяется. За 2019 год число казахстанских подписчиков сервиса выросло пятикратно. 

В целом аудитория сервиса Яндекс.Музыка за три года, по данным Габриеляна, увеличилась больше чем в 10 раз. В конце 2019 года количество платных подписчиков сервиса достигло 3,1 млн, месячная аудитория – чуть более 15 млн. Другие популярные в Казахстане стриминговые сервисы на запрос «Курсива» не ответили.

banner_wsj.gif

2234 просмотра

Дипфейки для бизнеса: кто и как на них будет зарабатывать?

«Курсив» разбирается, как создают цифровые образы, почему это перспективный бизнес и какая роль в нём отведена дипфейкам

Фото: Shutterstock.com

Реклама с виртуальными моделями, цифровые телеведущие и фейковые речи президентов – реальность, которую формируют алгоритмы машинного обучения. В 2020 году технологии искусственного интеллекта глубже проникают в сферы телекоммуникаций, развлечений и формируют новые рынки. За развитием дипфейков внимательно наблюдают специалисты по кибербезопасности, расследуя новые формы мошенничества с использованием передовых технологий.

Тренды в области искусственного интеллекта дошли и до Казахстана. Вслед за китайским телевидением отечественные разработчики создали виртуального ведущего новостей, прототипом которого стал казахстанский актёр Санжар Мади. Его виртуальный двойник i-Sanj ведёт новости экономики на Atameken Business и почти не отличается от реального прототипа.

Новая индустрия

В 2017 году объём мирового рынка ИИ составил $1,58 млрд. По разным оценкам, он значительно вырастет к 2024 году (до $20,83, а то и $30,6 млрд). Если верить прогнозам консалтинговой компании Tractica, годовой доход от программного обеспечения для ИИ достигнет $126,0 млрд к 2025 году, по сравнению с $10,1 млрд в 2018 году. Прирост инвестиций демонстрируют и стартапы, использующие алгоритмы машинного обучения. В 2019 году они привлекли рекордные $26,6 млрд.

Согласно отчёту Tractica, распознавание голоса – самая выгодная область применения ИИ, а её совокупный доход с 2018 по 2025 год составит $38,8 млрд. Второе направление по ожидаемой прибыли с общим доходом в $20,5 млрд – цифровые ассистенты. В ближайшей перспективе именно они будут консультировать клиентов в разных сферах, будь то государственные учреждения, банки и call-центры.
 
Если прогнозы сбудутся, сервисы типа Алисы или Siri также обретут цифровое воплощение. Они будут напоминать пользователям, когда пить лекарства, предупреждать о пробках на дорогах, делиться последними новостями и подсказывать товары в магазине.

А причём тут дипфейки?

Распознавание голоса, генерация речи и создание новой внешности на основе тысяч фотографий – всё это появилось благодаря нейросетям, чаще называемых «искусственным интеллектом». На практике – это разновидность алгоритмов машинного обучения, предназначенных для решения конкретных задач. В том числе для создания цифровых образов и дипфейков. В обоих случаях используются генеративно-состязательные нейросети (GAN), создающие новый контент на основе множества шаблонов речи и изображений.
 
Эту технологию в 2014 году придумал студент Стэнфорда Ян Гудфеллоу, но широкую известность она получила, когда пользователь Reddit под ником Deepfakes начал подставлять лица голливудских киноактрис в порно. Интерес к новому жанру не заставил себя долго ждать, и уже к 2019 году из 14 678 дипфейков, доступных онлайн, 96% оказались порнороликами.

статистика порно дипфейки.png 
 
Дипфейки также нашли применение в развлекательных видео с кинозвёздами и мобильных приложениях типа китайского Zao, подставляющих лица пользователей вместо актёров в популярных фильмах. Невольными героями дипфейков становились и влиятельные персоны, например, Барак Обама, Дональд Трамп и Марк Цукерберг.

hightech.plus_.jpghightech.plus

Впоследствии Facebook объявил компанию по борьбе с дипфейками, а некоторые американские штаты запретили распространение подобных видео с участием кандидатов в президенты во время предвыборной гонки. В Китае запрет на использование ИИ для создания фейковых новостей действует с 1 января 2020 года.

Как нейросети воссоздают голос и цифровое изображение человека?

В отличие от мобильных приложений с функцией faceswap (замены лиц) и шутливых роликов, продукты для бизнеса требуют более качественного синтеза речи и изображений. Например, как в социальной рекламе с Дэвидом Бекхэмом об опасности малярии. Благодаря ИИ, бывший футболист заговорил на девяти языках чужими голосами, органично подстроенными под его артикуляцию. 

Также в 2019 году сервис по синтезу речи запустила компания Тимура Бекмабетов, предложив озвучивать рекламу, фильмы, книги, игры и аудиогиды голосами знаменитостей. Годом ранее китайские разработчики создали первого в мире виртуального ведущего для информационного агентства Синьхуа. Кроме голоса они также синтезировали внешность человека, и хотя в первой версии губы ведущего двигались не совсем естественно, это был прорыв.

В феврале 2020 года виртуальный ведущий появился на казахстанском телевидении, и аналогов в СНГ у него пока нет. Его разработала отечественная компания ICT service, специализирующаяся на технологиях машинного обучения. Казахстанские специалисты учли китайский опыт и за восемь месяцев подготовили коммерческий сервис.
 

«По сути, алгоритмы машинного обучения – это математические функции. Но дело в том, что заранее часть параметров этих функций неизвестна, их нужно подобрать. Здесь применяется статистический подход, при котором известны вводные цифры и конечный результат. Предложив алгоритму эти данные, можно подобрать недостающие компоненты так, чтобы функция полностью описывала их взаимосвязь. Для этого нужна абстрактная архитектура функции и датасет – большой объём входных и конечных данных. Соответственно, чтобы преобразовать голос одного человека в речь другого, необходимо множество голосов разных людей, а также их некое описание», – объясняет главный разработчик виртуального ведущего Вячеслав Бублик.

Вячеслав Бублик.jpg

Фото: Роман Лукьянчиков

В ходе работы над проектом команде потребовалось решить несколько ключевых задач: научить нейросеть синтезировать речь на основе текстов и выпустить видео с учётом оригинальной мимики актёра. На каждом шаге разработчики использовали различные модели машинного обучения, как открытые решения, так и собственные разработки. Также они изучили научные публикации с передовыми наработками зарубежных специалистов.

«Очень часто авторы научных статей, понимая ценность технологии, публикуют только ту часть информации, которая повысит их научный авторитет. Воспользоваться их результатами, не проделав значительную самостоятельную работу, невозможно», – говорит директор по развитию бизнеса в ICT service Сергей Панченко.

Сегей Панчеко.jpg

Фото: Роман Лукьянчиков

Генерация минутного видео в формате 4K занимала у разработчиков около трёх минут. Ускорить процесс позволили онлайн-библиотеки машинного обучения с открытым исходным кодом, такие как PyTorch для языка программирования Python. Они нужны для вычислений больших матриц и связанных с ними операций, требующих значительных вычислительных ресурсов.

Синтез и трансформация речи

Воссоздать голос конкретного человека с помощью нейросетей можно разными способами. Технология, которую использовали специалисты, синтезирует речь Санжара Мади из чужого голоса. Сначала текст ведущего необходимо озвучить. Разработчики воспользовались сервисом Yandex SpeechKit, который автоматически озвучивает загруженный текст на разных языках, предлагая на выбор несколько голосовых шаблонов.

Возможен и другой вариант, без использования внешних сервисов. Для реализации этого способа требуется многочасовой датасет с образцами голосов на требуемом языке, а не часовая видеозапись с речью актёра, которой располагали разработчики. Плюс понадобилась бы текстовая расшифровка всех голосовых записей.

«Голос любого человека можно представить, как последовательность неких чисел, например, в виде спектрограммы. В ней заложена информация об индивидуальных особенностях произношения и сказанных словах. Если представить речь двух людей в указанном виде и сравнить их, то часть параметров в этих последовательностях будет совпадать, а другая часть будет отличаться», – поясняет Вячеслав Бублик.

Проанализировав записи разных голосов, нейросеть отделит слова от характерных особенностей речи каждого спикера. То есть, чтобы воссоздать голос Санжара Мади, алгоритмам достаточно связать его уникальные голосовые характеристики с обезличенными словами, сказанными кем-то другим.

Синтез видео

Самой сложной задачей на этапе разработки было воссоздать частичную артикуляцию актёра. Она была решена с использованием модели машинного обучения Pix2Pix, управляющая контурами губ виртуального ведущего в процессе речи. 

«Существуют открытые библиотеки данных, способные распознавать лица на фотографиях и выставлять на них ключевые точки. Мы разбили исходное видео с Санжаром на отдельные кадры и сформировали к ним набор точек с контурами лица. Затем в каждом кадре закрасили область рта чёрным квадратом и на нём нарисовали контуры губ, опираясь на имеющиеся данные. Таким образом, получались две фотографии – одна с исходным изображением, а вторая с нужными контурами губ», – рассказывает Вячеслав Бублик.

Научившись создавать сотни парных картинок, нейросеть может генерировать новые изображения, даже если некоторые параметры нужного кадра ей неизвестны. Система подбирает их автоматически. Чтобы контуры губ двигались синхронно произносимым словам, разработчики создали свою нейронную сеть и также обучили её по эталонному видео. Получив образец голоса, алгоритмы выдают нужные контуры губ, которые потом дорисовывает графическая модель на финальных кадрах с лицом актёра.  

Перспективы и риски

Среди крупных игроков разработкой цифровых образов на базе искусственного интеллекта активно занимается Samsung. На выставке CES 2020 компания представила реалистичных виртуальных аватаров «Неонов». Они двигаются и разговаривают на разных языках, и за каждым закреплен определенный характер и роль, будь то инструктор по йоге или K-pop звезда. Неоны ещё требуют доработки, но в компании уверены, что потенциал их цифровых творений гораздо шире, чем у голосовых помощников. В них видят не только будущих докладчиков, новостных ведущих и актёров, но и полноценных собеседников и даже друзей. Конечная цель проекта – подключение и взаимодействие цифрового аватара с внешними устройствами.

Неоны.jpg

Что касается казахстанских разработчиков, результатом их работы также стал онлайн-сервис по созданию цифровых образов и трансформации речи. Чтобы получить виртуальную копию, достаточно будет загрузить на специальную платформу часовое видео с образцами речи и внешности в хорошем качестве. Создание цифрового образа – единоразовая услуга, а производство контента с виртуальным ведущим должно стоить дешевле реальных съёмок.

По мнению Сергея Панченко, в ближайшее время телеведущим не стоит опасаться цифровых конкурентов. Виртуальные двойники без запинки озвучат любой текст, но их диапазон эмоций и интонаций пока ограничен чтением нейтральных новостей. Для более сложных задач нейросетям ещё предстоит научиться интегрировать нужные эмоции в виртуальный образ. Телеканал проводит эксперимент, а его результаты во многом будет зависеть от реакции аудитории и рейтингов просмотров.

Для повышения спроса на технологии компании предстоит освоить синтез казахского языка. Пока этому препятствует отсутствие открытой базы данных с образцами речи. Не исключено, что проблему получится решить в сотрудничестве с местными научными центрами, ведущими разработки в области синтеза речи.

Другое актуальное применение технологии – выявление дипфейков. Помимо репутационных рисков и распространения слухов, подделка голосов и изображения чревата финансовыми убытками. Известен как минимум один случай, когда синтез голоса помог мошенникам украсть 243 тысячи долларов у британской компании. Злоумышленники дозвонились одному из руководителей фирмы и голосом начальника убедили его перевести деньги на подставной счёт.

«На выходе пользователи сервиса получают аудио и видеозаписи, а что они с ними дальше делают – их ответственность. Мы предоставляем только инструмент. Причем, человек, чья внешность станет прототипом при создании образа, должен дать официальное согласие на использование его изображения и голоса. Мы следим за обеспечением информационной безопасности сервиса и предоставляем услугу только авторизованным пользователям», – отмечает Сергей Панченко.

Пока правовые нормы едва успевают за развитием технологий, но очевидно, что с каждым годом искусственный интеллект будет предлагать всё более совершенные решения. Следующим этапом после генерации изображения лиц станет реалистичное копирование всего тела, а учитывая, как быстро учатся нейросети, появление новых цифровых образов не заставит себя долго ждать.

banner_wsj.gif

drweb_ESS_kursiv.gif