Google работает над новым ИИ, который будет писать саундтреки для видео

Лаборатория искусственного интеллекта DeepMind от Google работает над новой технологией, которая сможет генерировать звуковые дорожки и даже целые диалоги для видео.

Лаборатория рассказала о своем прогрессе в создании технологии преобразования видео в аудио (V2A), которую можно совместить с инструментами для создания видео.  Google работает над новым ИИ, который будет писать саундтреки для видео

Иллюстрация: deepmind.google

В своей публикации в блоге команда DeepMind объясняет, что система может понимать необработанные пиксели и сочетать эту информацию с текстовыми подсказками для создания звуковых эффектов для происходящего на экране. Инструмент также можно использовать для создания звуковых дорожек для немых фильмов и видео без звука, пишет NV.

Исследователи DeepMind обучили эту технологию на видео, аудио и созданных искусственным интеллектом аннотациях, которые содержат подробные описания звуков и стенограммы диалогов. Они говорят, что благодаря этому технология научилась ассоциировать определенные звуки с визуальными сценами. Хотя текстовая подсказка необязательна, ее можно использовать для формирования и совершенствования конечного продукта, чтобы звуковая дорожка была максимально точной и реалистичной.

Исследователи признают, что они все еще пытаются устранить ограничения своей технологии V2A, такие как снижение качества аудио на выходе и плохая синхронизация губ для сгенерированного диалога. Кроме того, они обещают провести строгую оценку безопасности и испытания технологии перед выпуском в модели для пользователей.

Команда DeepMind не первая, кто выпустил инструмент искусственного интеллекта, который может генерировать звуковые эффекты. ElevenLabs также недавно выпустила похожий инструмент.

Вам понравится