Apple, Google и другие компании используют ИИ-технологию для создания аудиокниг. Wall Street Journal заглянул за кулисы стартапа DeepZen, активно занимающегося развитием ИИ для этой отрасли. Forbes предлагает ключевые факты из материала
Amazon інвестує мільярди доларів у ШІ, роботів та машинне навчання. Якими принципами й правилами керується компанія?
Дізнайтеся вже 22 листопада на Forbes Tech 2024. Купуйте квиток за посиланням!
Эдвард Герман, ныне покойный американский актер, при жизни озвучил не один десяток книг, но спустя почти десять лет после смерти исполнителя его голосом зазвучали еще несколько произведений.
Лондонский ИИ-стартап DeepZen получил разрешение у родственников актера использовать записи голоса Германа, чтобы научить свою модель генерировать голос и интонации актера. Сын Германа был ошеломлен полученным результатом и сходством с голосом отца.
Генеративный ИИ не в первый раз используют для озвучивания аудиокниг. Тысячи книг в озвучании ИИ уже можно найти на популярных маркетплейсах, таких как Apple Books и Google Play Books. Audible, крупнейший аудиокнижный сервис США от Amazon, еще не может этим похвастаться, но компания оценивает такую возможность.
Крупнейшие американские издательства еще не слишком часто пользуются этой технологией, лишь иногда обращаются к ней для маркетинга. Однако для малых издательств и малоизвестных писателей, которым трудно потянуть затраты на профессиональную запись аудиокниги (по крайней мере $5000), ИИ – шанс выйти на этот сегмент рынка.
Apple и Google сообщили, что позволят пользователям бесплатно создавать аудиокниги с помощью специальных ИИ-программ. Они натренированы на голосах реальных людей.
По словам Чарльза Уоткинса, директора издательства University of Michigan Press, благодаря бесплатной программе озвучивания аудиокниг от Google его компания смогла создать аудиоверсии около 100 книг, которые иначе озвучены не были бы.
Актер звукозаписи Скотт Брик считает, что автоозвучка больше подходит научно-популярной литературе, когда актеры и читатели эмоционально не привязаны к произведению.
Тейлан Камис, гендиректор и соучредитель DeepZen, рассказал, что они привлекли более 30 профессиональных актеров, чтобы научить ИИ улавливать и воспроизводить весь спектр человеческих эмоций, и хотят добавить в свою библиотеку еще много голосов умерших известных знаменитостей.
Актриса Мелисса Папель, работающая на DeepZen, считает, что даже с такой технологией у актеров звукозаписи еще достаточно работы, хотя в будущем ИИ может совсем забрать их хлеб.
По словам Камиса, DeepZen платит им определенную ставку, а также роялти, которое зависит от доходов компании от разных проектов и выплачивается в течение нескольких лет.
Джеффри Беннет, генеральный советник Американской гильдии актеров и Американской федерации актеров радио и телевидения (профсоюз), ожидает, что ИИ в конце концов создаст революцию в индустрии.
«Все, что мы сейчас видим и слышим, со временем будет становиться все лучше и лучше, – сказал он. – Профсоюз работает над защитой прав на записи голосов актеров и их воспроизведение. Но мы не считаем, что профессиональные актеры звукозаписи с этим не справятся».
Издательства и ИИ
Аудиокниги – это очень успешный сегмент индустрии. Согласно Ассоциации американских книгоиздателей, продажи аудиокниг в прошлом году выросли на 7%, а Circana BookScan сообщает, что продажи печатных произведений упали на 5,8%.
Гендиректор Barnes & Noble Джеймс Донт говорит, что его компания не прочь продавать сгенерированные ИИ аудиокниги, если только авторы четко сообщают об этом факте.
Спикер Audible уверен, что «профессиональное озвучивание книг останется основой компании», но и для автоматически сгенерированных аудиокниг у них найдется место. Такого же мнения и Hachette Book Group.
HarperCollins Publishers использует ИИ-озвучку от Google для прощупывания иностранных рынков, чтобы оценить реакцию потребителей. А недавно компания начала рассылать аудиопроизведения, сгенерированные с помощью программы DeepZen, ритейлерам, обозревателям и критикам перед публикацией книги. HarperCollins не продает такие ИИ-аудиокниги в США.
Стартап DeepZen рассказал, что подписал соглашения с 35 издателями в США и работает с 25 писателями.
ИИ-генератор DeepZen использует ПО на основе машинного обучения и воспроизводит то, как говорит человек, и характеристики его голоса. Генератор может добавить эмоции и сосредоточиться на тяжело произносимых словах. Гендиректор компании считает, что так создавать книги проще, чем с помощью профессионального актера.
Помимо прав на голос Германа, DeepZen также делает ставку на голоса других усопших звезд и пытается получить на них права.
«Мы хотим расширить свою библиотеку, но не можем пока раскрывать все секреты», – говорит Камис.
Вы нашли ошибку или неточность?
Оставьте отзыв для редакции. Мы учтем ваши замечания как можно скорее.