«Судьба решила, что люди, отправившиеся на Луну, чтобы исследовать мир, останутся на Луне, чтобы покоиться с миром». Такими словами должна была начаться речь президента Никсона, если бы миссия «Аполлон-11» закончилась катастрофой. К счастью, он так ее и не произнес… пока в дело не вмешалось машинное обучение.
Летом 2020 года экспериментальная лаборатория Массачусетского технологического института выпустила фильм In Event of Moon Disaster. Это шестиминутный дипфейк, в создании которого участвовали два стартапа. На архивных записях с Никсоном украинский Respeecher изменил его речь, а американский Canny AI синхронизировал движения губ и мимику.
Проект с MIT стал одной из демонстраций, как далеко может зайти подобная технология, говорит CEO Respeecher Александр Сердюк, 31. Он понимает, какие угрозы она несет, и много говорит об этике.
Сервисом для синтеза речи Respeecher занимается с 2016 года. Идея возникла на хакатоне, организованном украинским единорогом Grammarly. На нем Сердюк вместе со своим коллегой Дмитрием Белевцовым – оба работали в аналитической компании IBDI – сделали первый прототип системы. Компанию они основали в 2018 году, когда к ним в качестве сооснователя присоединился американец Грант Рибер. В украинском юрлице у Рибера 40% акций, остальное пополам делят Сердюк и Белевцов, 30.
«Я провел в университетах около 15 лет, изучая математику, философию, компьютерные науки и машинное обучение,– рассказывает Рибер, 45 — Обожаю философию, но после докторской степени хотелось попробовать что-то другое». В 2012 году он запустил сайт для факт-чекинга. Проект провалился, а Рибер увлекся синтезом речи. «В 2016 году появилась модель для глубинного обучения WaveNet. Мне захотелось применить ее для коррекции акцентов»,– рассказывает он.
В случае с искусственной речью есть два подхода. Можно синтезировать голос из текста (text to speech), а можно накладывать эффекты на другую запись (voice conversion). Умные ассистенты в смартфонах и автоматическая озвучка статей – первый случай. Украинцы же играют на втором поле, где конкурентов практически нет. «Нейросети не имеют представления об эмоциональном контексте такой речи,– объясняет преимущества их подхода Сердюк.– И они ограничены словарями».
У качества есть своя цена. С озвучкой текста нейросети справляются на ходу, а вот трансформация голосов, да еще и в студийном качестве – куда сложнее. «Такой подход хуже масштабируется. Два года назад я бы согласился с монотонностью речи в TTS-моделях, но сегодня их уже можно научить эмоциям, а качество сильно выросло»,– рассказывает основатель стартапа Lovo.ai Чарли Хой. Его компания продает систему для озвучки текста и заявляет, что в слепом тесте 97% людей не отличают их алгоритмические голоса от настоящих.
Такая погрешность и качество устраивают не всех. «Когда мы начали делать фильм, не было никого, кто мог бы синтезировать голос так же качественно, как Respeecher»,– рассказывает режиссер In Event of Moon Disaster Халси Бургунд.
Respeecher требуется примерно час записи целевого голоса – это могут быть фрагменты интервью или выступлений знаменитости. Нейросеть анализирует и выделяет главные особенности речи. Затем ей нужно «скормить» вторую аудиодорожку, которую будет начитывать дублер. Наилучшего качества можно добиться, если он повторит за целевым голосом те же слова.
Это так называемое параллельное обучение, по итогу которого и появляется модель, способная сделать из одного голоса другой. «У нас ушло три дня только на то, чтобы записи в студии было достаточно в качестве материала для нейросети»,– вспоминает Бургунд. По словам основателей Respeecher, они уже готовы отказаться от параллельного обучения и значительно ускорить процесс.
Стоит ли игра свеч? «Сейчас для имитации знаменитых голосов используют пародистов,– говорит Сердюк.– Мы развязываем индустрии руки и делаем спецэффекты для голоса». Его компания продает свой продукт в B2B-сегменте. Основная аудитория – киностудии, хотя на прицеле также держат сегмент видеоигр, подкастов и аудиокниг.
В индустрии развлечений синтез голосов позволяет сэкономить на этапе пост-продакшена. «Представьте, что вам нужны 40 часов озвучки в исполнении Тома Хэнкса для видеоигры. Логистически сложно. А с нами все проще»,– объясняет Сердюк. Один дублер может озвучивать несколько персонажей, и зритель этого не заметит. Основатели получают разрешения у владельцев голосов и договариваются про роялти.
Пока стартап работает попроектно, их крупнейший чек от клиента – несколько сотен тысяч долларов. На прибыльность команда, насчитывающая уже 15 человек, пока не вышла. О деньгах не беспокоятся. В 2019 году стартап попал в акселератор Techstars и получил $120 000. В начале 2020 года Respeecher закрыл раунд на $1,5 млн, его возглавил нью-йоркский фонд ffVC. В инвестиции поучаствовали украинский ICU Ventures и голландский Acrobator Ventures.
Следующая задача – обрабатывать голос в реальном времени. Это позволит продавать технологию кол-центрам. Размещая поддержку в Индонезии или Индии, компании смогут откорректировать голоса операторов. «Богатый рынок с понятной моделью тарификации и масштабирования»,– говорит Сердюк.
«Сложно обеспечить качество с минимальной задержкой в обработке голоса»,– рассказывает Белевцов. Вызовов несколько. Технология требовательна к качеству звука, а ее архитектура требует последовательной обработки записи, синтезируя отрезок за отрезком. «Мы не можем допустить ошибок. Человеческое ухо очень чувствительно к фонетическим промахам»,– добавляет Белевцов.
Ключевых клиентов Respeecher не называет из за контрактных обязательств. Сердюк говорит, что они работали над голливудской картиной с бюджетом около $300 млн. «Они работают для крупного голливудского сериала, делают интересные проекты в анимации и видеоиграх»,– делится планами компании глава ICU Ventures Роман Никитов.
«Со стороны сложно оценить, насколько хорошо это работает. У нас пока нет проблемы с недостатком людей. Тем более что на загрузку сильно повлияла пандемия»,– рассказывает Ирина Туловская, глава отдела дубляжа студии Postmodern. «Им, по сути, приходится формировать рынок, создавать новую потребность у пользователей»,– говорит Никитов. «Индустрия просто еще не знает, что эти технологии уже здесь»,– вторит инвестору Сердюк.
Со своими разработками стартап пытается обходиться максимально осторожно. Кроме отбора заявок на сотрудничество, разрабатывает «водяной знак» для своих аудиодорожек. Он позволит отличать синтезированный звук от настоящего, когда голосовые дипфейки станут популярнее. «Когда появился Photoshop, все тоже говорили, что закончилась эпоха реалистичных изображений,– говорит Белевцов.– Но большинство картинок все еще настоящие».
Опубликовано в пятом номере журнала Forbes (ноябрь 2020)
Вы нашли ошибку или неточность?
Оставьте отзыв для редакции. Мы учтем ваши замечания как можно скорее.