谷歌 DeepMind 新研究:利用 AI 模型为无声视频配音

每日快讯
2024
06/19
22:02
IT之家
分享
评论

来源:IT之家 

据谷歌 DeepMind 新闻稿,DeepMind 近日公布了一项利用 AI 为无声视频生成背景音乐的 "video-to-audio" 技术。

IT 之家获悉,当前 DeepMind 这款 AI 模型依然存在局限性,需要开发者使用提示词为模型预先 " 介绍 " 视频可能的声音,暂时不能直接根据视频画面添加具体音效

据悉,该模型首先会将用户输入的视频进行拆解,此后结合用户的用户文字提示,利用扩散模型反复运算,最终以生成与视频画面协调的背景声音,例如输入一条 " 在黑暗中行走 " 的无声视频,再添加 " 电影、恐怖片、音乐、紧张、混凝土上的脚步声 " 等文字提示,相关模型就能生成恐怖风格的背景音效。

DeepMind 同时表示,该 "video-to-audio" 模型可以为任何视频生成无限数量的音轨,还能够通过提示词内容判断生成的音频 " 正向性 " 或 " 反向性 ",从而令生成的声音更贴近某些特定场景

展望未来,DeepMind 表示研究人员正进一步优化这款 "video-to-audio" 模型,计划未来能够让模型直接根据视频内容,无须通过提示词即可生成视频背景音,同时还将改善视频中人物对白的口型同步能力。

THE END
广告、内容合作请点击这里 寻求合作
数码
免责声明:本文系转载,版权归原作者所有;旨在传递信息,不代表 的观点和立场。

相关热点

海通证券分析师杰夫普(Jeff Pu)近日发布投资简报,认为苹果公司已经开始构建基于 M2 Ultra 芯片的 AI 服务器。
每日快讯
一家 AI 初创公司 Suno 近日发布了首款能够生成 " 广播级 " 歌曲的工具,能够在数秒之内创作出两分钟的完整歌曲,所有用户均可免费访问。
评测
小米官宣将于 2 月 22 日晚发布 Redmi Book Pro 2024 笔记本,号称是 " 小米笔记本业务的全新篇章 ",用手机的产业能力 赋能笔记本业务,并且全面接入小米澎湃 OS。
每日快讯
据国外媒体报道称,iPhone 16 的所谓设计图流出,而据此渲染出的效果是,回归竖排双摄。
评测
如果 Vision Pro 头显出现系统故障,用户应该如何恢复呢?根据苹果解锁的最新细节,整个恢复过程类似于 Apple Watch 和 Apple TV,需要 iPhone 借助完成。
每日快讯

相关推荐

1
3
Baidu
map