Категория: Инновации
Дата: 18 ноября 2020 00:00

Стартап Respeecher научился имитировать голоса. Осталось найти, кому это нужно

Михаил Сапитон

Forbes

4 хв читання

«Судьба решила, что люди, отправившиеся на Луну, чтобы исследовать мир, останутся на Луне, чтобы покоиться с миром». Такими словами должна была начаться речь президента Никсона, если бы миссия «Аполлон-11» закончилась катастрофой. К счастью, он так ее и не произнес… пока в дело не вмешалось машинное обучение.

Летом 2020 года экспериментальная лаборатория Массачусетского технологического института выпустила фильм In Event of Moon Disaster. Это шестиминутный дипфейк, в создании которого участвовали два стартапа. На архивных записях с Никсоном украинский Respeecher изменил его речь, а американский Canny AI синхронизировал движения губ и мимику.

Проект с MIT стал одной из демонстраций, как далеко может зайти подобная технология, говорит CEO Respeecher Александр Сердюк, 31. Он понимает, какие угрозы она несет, и много говорит об этике.

Популярне

Категория: Компании
Дата: Вчера

«Одна из самых крупных американских инвестиций в Украине». Россияне ударили по заводу Flex в Мукачево. Каковы последствия атаки

Сервисом для синтеза речи Respeecher занимается с 2016 года. Идея возникла на хакатоне, организованном украинским единорогом Grammarly. На нем Сердюк вместе со своим коллегой Дмитрием Белевцовым – оба работали в аналитической компании IBDI – сделали первый прототип системы. Компанию они основали в 2018 году, когда к ним в качестве сооснователя присоединился американец Грант Рибер. В украинском юрлице у Рибера 40% акций, остальное пополам делят Сердюк и Белевцов, 30.

«Я провел в университетах около 15 лет, изучая математику, философию, компьютерные науки и машинное обучение,– рассказывает Рибер, 45 — Обожаю философию, но после докторской степени хотелось попробовать что-то другое». В 2012 году он запустил сайт для факт-чекинга. Проект провалился, а Рибер увлекся синтезом речи. «В 2016 году появилась модель для глубинного обучения WaveNet. Мне захотелось применить ее для коррекции акцентов»,– рассказывает он.

Деньги на голос. Как росли мировые инвестиции в voicetech-стартапы

$30,6 млн

2016 год
$298 млн

2017 год
$581 млн

2018 год
$1572 млн

2019 год

В случае с искусственной речью есть два подхода. Можно синтезировать голос из текста (text to speech), а можно накладывать эффекты на другую запись (voice conversion). Умные ассистенты в смартфонах и автоматическая озвучка статей – первый случай. Украинцы же играют на втором поле, где конкурентов практически нет. «Нейросети не имеют представления об эмоциональном контексте такой речи,– объясняет преимущества их подхода Сердюк.– И они ограничены словарями».

У качества есть своя цена. С озвучкой текста нейросети справляются на ходу, а вот трансформация голосов, да еще и в студийном качестве – куда сложнее. «Такой подход хуже масштабируется. Два года назад я бы согласился с монотонностью речи в TTS-моделях, но сегодня их уже можно научить эмоциям, а качество сильно выросло»,– рассказывает основатель стартапа Lovo.ai Чарли Хой. Его компания продает систему для озвучки текста и заявляет, что в слепом тесте 97% людей не отличают их алгоритмические голоса от настоящих.

Такая погрешность и качество устраивают не всех. «Когда мы начали делать фильм, не было никого, кто мог бы синтезировать голос так же качественно, как Respeecher»,– рассказывает режиссер In Event of Moon Disaster Халси Бургунд.

Respeecher требуется примерно час записи целевого голоса – это могут быть фрагменты интервью или выступлений знаменитости. Нейросеть анализирует и выделяет главные особенности речи. Затем ей нужно «скормить» вторую аудиодорожку, которую будет начитывать дублер. Наилучшего качества можно добиться, если он повторит за целевым голосом те же слова.

Это так называемое параллельное обучение, по итогу которого и появляется модель, способная сделать из одного голоса другой. «У нас ушло три дня только на то, чтобы записи в студии было достаточно в качестве материала для нейросети»,– вспоминает Бургунд. По словам основателей Respeecher, они уже готовы отказаться от параллельного обучения и значительно ускорить процесс.

Стоит ли игра свеч? «Сейчас для имитации знаменитых голосов используют пародистов,– говорит Сердюк.– Мы развязываем индустрии руки и делаем спецэффекты для голоса». Его компания продает свой продукт в B2B-сегменте. Основная аудитория – киностудии, хотя на прицеле также держат сегмент видеоигр, подкастов и аудиокниг.

В индустрии развлечений синтез голосов позволяет сэкономить на этапе пост-продакшена. «Представьте, что вам нужны 40 часов озвучки в исполнении Тома Хэнкса для видеоигры. Логистически сложно. А с нами все проще»,– объясняет Сердюк. Один дублер может озвучивать несколько персонажей, и зритель этого не заметит. Основатели получают разрешения у владельцев голосов и договариваются про роялти.

Пока стартап работает попроектно, их крупнейший чек от клиента – несколько сотен тысяч долларов. На прибыльность команда, насчитывающая уже 15 человек, пока не вышла. О деньгах не беспокоятся. В 2019 году стартап попал в акселератор Techstars и получил $120 000. В начале 2020 года Respeecher закрыл раунд на $1,5 млн, его возглавил нью-йоркский фонд ffVC. В инвестиции поучаствовали украинский ICU Ventures и голландский Acrobator Ventures.

Следующая задача – обрабатывать голос в реальном времени. Это позволит продавать технологию кол-центрам. Размещая поддержку в Индонезии или Индии, компании смогут откорректировать голоса операторов. «Богатый рынок с понятной моделью тарификации и масштабирования»,– говорит Сердюк.

«Сложно обеспечить качество с минимальной задержкой в обработке голоса»,– рассказывает Белевцов. Вызовов несколько. Технология требовательна к качеству звука, а ее архитектура требует последовательной обработки записи, синтезируя отрезок за отрезком. «Мы не можем допустить ошибок. Человеческое ухо очень чувствительно к фонетическим промахам»,– добавляет Белевцов.

Ключевых клиентов Respeecher не называет из за контрактных обязательств. Сердюк говорит, что они работали над голливудской картиной с бюджетом около $300 млн. «Они работают для крупного голливудского сериала, делают интересные проекты в анимации и видеоиграх»,– делится планами компании глава ICU Ventures Роман Никитов.

«Со стороны сложно оценить, насколько хорошо это работает. У нас пока нет проблемы с недостатком людей. Тем более что на загрузку сильно повлияла пандемия»,– рассказывает Ирина Туловская, глава отдела дубляжа студии Postmodern. «Им, по сути, приходится формировать рынок, создавать новую потребность у пользователей»,– говорит Никитов. «Индустрия просто еще не знает, что эти технологии уже здесь»,– вторит инвестору Сердюк.

Со своими разработками стартап пытается обходиться максимально осторожно. Кроме отбора заявок на сотрудничество, разрабатывает «водяной знак» для своих аудиодорожек. Он позволит отличать синтезированный звук от настоящего, когда голосовые дипфейки станут популярнее. «Когда появился Photoshop, все тоже говорили, что закончилась эпоха реалистичных изображений,– говорит Белевцов.– Но большинство картинок все еще настоящие».

Опубликовано в пятом номере журнала Forbes (ноябрь 2020)

Материалы по теме

Категория: Инновации
Дата: 18 ноября 2020

На вынос. Как украинский сервис Allset воспользовался коронакризисом, чтобы стать сильнее

Категория: Инновации
Дата: 18 ноября 2020

Эстонец Рагнар Сасс разглядел стартап-потенциал Киева. Его идея — думать не только о прибыли

Категория: Инновации
Дата: 01 декабря 2020

Сети зарядных станций для электромобилей — молодой бизнес с привлекательными перспективами

Вы нашли ошибку или неточность?

Оставьте отзыв для редакции. Мы учтем ваши замечания как можно скорее.

Категория: BrandVoice
Дата: 16 июня

Як ваша компанія підвищує енергонезалежність та енергоефективність — опитування

Категория: BrandVoice
Дата: 19 августа

INSORTEX: як технології компанії зробили українську ягоду дорожчою для світу

Категория: Партнерский материал
Дата: 19 августа

Логістика без кордонів: роль платформи SMART CRM у процесі відкриття Новою поштою нових європейських ринків

Категория: Партнерский материал
Дата: 18 августа

Інвестувати в майбутнє Одеси: кейс готелю ARCHOTEL

Категория: BrandVoice
Дата: 12 августа

«The question isn’t whether to invest in Ukraine, but how fast and in what areas.» – Allan Hirst, an independent member of the Supervisory Board of Citi Ukraine

Категория: BrandVoice
Дата: 11 августа

Гранти на сонце. Як держава та міжнародні партнери підтримують енергетичну стійкість малого та мікробізнесу

Категория: BrandVoice
Дата: 11 августа

Як SharksCode будує ІТ-бізнес на межі структури й свободи. Кейс компанії

Категория: Партнерский материал
Дата: 08 августа

Lean як стратегія виживання: як малий бізнес в Україні вчиться працювати по-новому

Категория: Партнерский материал
Дата: 05 августа

Курортний комплекс SKOGUR: чому майбутнє українського туризму може бути у wellness

Категория: Партнерский материал
Дата: 04 августа

Приватна школа як капітал: що дає КМДШ сьогодні

Четвертий випуск 2025 року вже у передпродажу

Замовляйте з безкоштовною доставкою по Україні