根据谷歌的DeepMind新闻稿,DeepMind最近宣布了一项“视频转音频”技术,该技术使用AI为无声视频生成背景音乐。
IT之家了解到,目前DeepMind的AI模型仍然存在局限性,需要开发者提前为模型“引入”视频可能出现的声音,暂时无法根据视频画面直接添加具体的音效。
据悉,该模型将首先对用户输入的视频进行拆解,然后结合用户的文字提示,利用扩散模型反复计算,最终生成与视频画面相协调的背景声音,如输入一段“行走在黑暗中”的无声视频,并添加“电影、恐怖片、音乐、紧张、混凝土上的脚步声”等文字提示,相关模型即可生成恐怖风格的背景声音效果。
中国癌症病死率
DeepMind还表示,“视频转音频”模型可以为任何视频生成无限数量的音频轨道,还可以通过提示词的内容来判断生成的音频是“正向”还是“反向”,从而使生成的声音更接近某些特定场景。
展望未来,DeepMind表示,研究人员正在进一步优化这种“视频到音频”的模式。计划在未来,该模型可以直接根据视频内容生成视频背景声音,而无需提示文字,同时还将提高视频中人物的唇形同步能力。a42参数引脚图
一线显卡品牌排行
未经允许不得转载:科技让生活更美好 » 谷歌 DeepMind 新研究:利用 AI 模型为无声视频配音