«Доля розпорядилася, що люди, які вирушили на Місяць, аби досліджувати світ, залишаться на Місяці, щоб спочивати з миром». Такими словами мала розпочатися промова президента Ніксона, якби місія «Аполлон-11» закінчилася катастрофою. На щастя, він її так і не проголосив… аж доки у справу не втрутилося машинне навчання.
Влітку 2020 року експериментальна лабораторія Массачусетського технологічного інституту випустила фільм In Event of Moon Disaster. Це шестихвилинний діпфейк, у створенні якого брали участь два стартапи. На архівних записах з Ніксоном український Respeecher змінив його промову, а американський Canny AI синхронізував рухи губ і міміку.
Проєкт з MIT продемонстрував, як далеко може зайти подібна технологія, зазначає CEO Respeecher Олександр Сердюк, 31. Він розуміє, як вона загрожує, і багато говорить про етику.
Сервісом для синтезу мовлення Respeecher займається з 2016 року. Ідея виникла на хакатоні, організованому українським єдинорогом Grammarly. На ньому Сердюк разом зі своїм колегою Дмитром Бєлєвцовим – обидва працювали в аналітичній компанії IBDI – зробили прототип системи. Компанію вони заснували 2018 року, коли до них як співзасновник приєднався американець Грант Рібер. В українській юрособі у Рібера 40% акцій, решту навпіл ділять Сердюк і Бєлєвцов, 30.
«Я провів 15 років в університетах, вивчаючи математику, філософію, комп’ютерні науки та машинне навчання, — розповідає Рібер, 45 — Обожнюю філософію, але після ступені доктора хотів спробувати щось інше». В 2012 році він запустив сайт для факт-чекінгу. Проєкт провалився, а Рібер захопився синтезом мови. «У 2016 році з’явилася модель для глибинного навчання WaveNet. Мені захотілося застосувати її для корекції акцентів»,– розповідає він.
Стосовно штучного мовлення є два підходи. Можна синтезувати голос з тексту (text to speech), а можна накладати ефекти на інший запис (voice conversion). Розумні помічники у смартфонах і автоматичне озвучування статей – перший випадок. Українці ж грають на іншому полі, де конкурентів практично немає. «Нейромережі не мають уявлення про емоційний контекст такого мовлення,– пояснює переваги їхнього підходу Сердюк.– І вони обмежені словниками».
У якості є своя ціна. З озвученням тексту нейромережі справляються на ходу, а ось трансформація голосів, та ще й у студійній якості – справа складніша. «Такий підхід гірше масштабується. Два роки тому я б змирився з монотонністю мови у TTS-моделях, але нині їх уже можна навчити емоцій, а якість сильно зросла»,– розповідає засновник стартапу Lovo.ai Чарлі Хой. Його компанія продає систему для озвучення тексту і заявляє, що в сліпому тесті 97% людей не відрізняють їхні алгоритмічні голоси від справжніх.
Така похибка і якість влаштовують не всіх. «Коли ми почали робити фільм, не було нікого, хто міг би синтезувати голос так само якісно, як Respeecher»,– розповідає режисер In Event of Moon Disaster Халсі Бургунд.
Respeecher може ідеально скопіювати голос. Але коштувати це буде від десятків до сотень тисяч доларів
Respeecher потрібна орієнтовно година запису цільового голосу – це можуть бути фрагменти інтерв’ю або виступів знаменитості. Нейромережа аналізує й виокремлює головні особливості мови. Потім їй необхідно «згодувати» другу аудіодоріжку, яку начитуватиме дублер. Найкращої якості можна домогтися, якщо він повторить за цільовим голосом ті самі слова.
Це так зване паралельне навчання, внаслідок якого і з’являється модель, здатна перетворити один голос на інший. «Нам знадобилося три дні тільки для того, щоб студійного запису було достатньо як матеріалу для нейромережі»,– згадує Бургунд. За словами засновників Respeecher, вони вже готові відмовитися від паралельного навчання і значно прискорити процес.
Чи варта справа заходу? «Нині для імітації голосів знаменитостей використовують пародистів,– говорить Сердюк.– Ми розв’язуємо індустрії руки і робимо спецефекти для голосу». Його компанія продає свій продукт у B2B-сегменті. Основна аудиторія – кіностудії, хоча на прицілі також тримають сегмент відеоігор, підкастів та аудіокниг.
У індустрії розваг синтез голосів дає змогу заощадити на етапі постпродукції. «Уявіть, що вам потрібні 40 годин озвучення у виконанні Тома Генкса для відеогри. Це важко логістично. А з нами все простіше»,– пояснює Сердюк. Один дублер може озвучувати відразу кількох персонажів, і глядач цього не помітить. Засновники одержують дозволи у власників голосів і домовляються про роялті.
Наразі стартап працює попроєктно, їхній найбільший чек від клієнта – кілька сотень тисяч доларів. На прибутковість команда, яка налічує вже 15 людей, поки не вийшла. Але щодо грошей не переймаються. У 2019 році стартап потрапив у акселератор Techstars і одержав $120 000. На початку 2020 року Respeecher закрив раунд на $1,5 млн, його очолив нью-йоркський фонд ffVC. В інвестиції взяли участь український ICU Ventures і голландський Acrobator Ventures.
Наступне завдання – обробляти голос в реальному часі. Це дасть змогу продавати технологію кол-центрам. Розміщуючи підтримку в Індонезії або Індії, компанії зможуть відкоригувати голоси операторів. «Це багатий ринок зі зрозумілою моделлю тарифікації та масштабування»,– говорить Сердюк.
«Складно забезпечити якість із мінімальною за — тримкою в обробці голосу»,– розповідає Бєлєвцов. Викликів кілька. Технологія вимоглива до якості звуку, а її архітектура потребує послідовного обро — блення запису, синтезуючи відрізок за відрізком. «Ми не можемо припускатися помилок. Людське вухо дуже чутливе до фонетичних промахів»,– додає Бєлєвцов.
Своїх ключових клієнтів Respeecher не називає через контрактні зобов’язання. Сердюк говорить, що вони взяли участь у роботі над голлівудською картиною з бюджетом приблизно $300 млн. «Вони працюють для великого голлівудського серіалу, роблять цікаві проєкти в анімації та відеоіграх»,– ділиться планами компанії голова ICU Ventures Роман Нікітов.
«З боку складно оцінити, наскільки добре це працює. Нам наразі не бракує людей. Тим паче що на завантаження сильно вплинула пандемія»,– розповідає Ірина Туловська, голова відділу дубляжу студії Postmodern. «Їм, по суті, доводиться формувати ринок, створювати нову потребу в користувачів»,– говорить Нікітов. «Індустрія просто ще не знає, що ці технології вже тут»,– вторує інвесторові Сердюк.
Зі своїми розробками стартап намагається поводитися максимально обережно. Крім суворого відбору заявок на співпрацю, у компанії розробляють «водяний знак» для своїх аудіодоріжок. Він дасть змогу відрізняти синтезований звук від справжнього, коли голосові дипфейки стануть популярнішими. «Коли з’явився Photoshop, усі також говорили, що закінчилася епоха реалістичних зображень,– говорить Бєлєвцов.– Але більшість картинок все ще справжні».
Опубліковано в пʼятому номері журналу Forbes (листопад 2020)
Ви знайшли помилку чи неточність?
Залиште відгук для редакції. Ми врахуємо ваші зауваження якнайшвидше.