谷歌 DeepMind 新研究：利用 AI 模型为无声视频配音-科技让生活更美好

根据谷歌的DeepMind新闻稿，DeepMind最近宣布了一项“视频转音频”技术，该技术使用AI为无声视频生成背景音乐。

IT之家了解到，目前DeepMind的AI模型仍然存在局限性，需要开发者提前为模型“引入”视频可能出现的声音，暂时无法根据视频画面直接添加具体的音效。

据悉，该模型将首先对用户输入的视频进行拆解，然后结合用户的文字提示，利用扩散模型反复计算，最终生成与视频画面相协调的背景声音，如输入一段“行走在黑暗中”的无声视频，并添加“电影、恐怖片、音乐、紧张、混凝土上的脚步声”等文字提示，相关模型即可生成恐怖风格的背景声音效果。

中国癌症病死率

DeepMind还表示，“视频转音频”模型可以为任何视频生成无限数量的音频轨道，还可以通过提示词的内容来判断生成的音频是“正向”还是“反向”，从而使生成的声音更接近某些特定场景。

展望未来，DeepMind表示，研究人员正在进一步优化这种“视频到音频”的模式。计划在未来，该模型可以直接根据视频内容生成视频背景声音，而无需提示文字，同时还将提高视频中人物的唇形同步能力。a42参数引脚图

谷歌 DeepMind 新研究：利用 AI 模型为无声视频配音