一张照片、一段声音秒生超逼真视频！南大等提出全新框架，口型动作精准还原-科技让生活更美好

新智元报道。

艺术经纬:跑的好困

【新智元简介】最近，南大等机构的研究人员开发了一个通用框架，可以用一段音频让照片中的头像说多种语言。无论是头部动作还是嘴型都很自然，我看到很多不错的。

一段音频+一张照片，照片里的人瞬间就能开始说话。

生成的语音动画不仅可以将口型和音频无缝对齐，面部表情和头部姿势也非常自然，富有表现力。

而且支持的图像风格也非常多样，除了一般的照片，卡通图片，ID照片等生成的效果都非常自然。

再加上多语言支持，照片中的人物瞬间活了起来，张着嘴就能说一门外语。

这是南京大学等机构的研究人员提出的一个通用框架——生动说话(Vivid Talk)，只需要语音和一张图片就可以生成高质量的说话视频。

该框架是由音频到网格生成和网格到视频生成组成的两阶段框架。

在第一阶段，考虑面部运动和blendshape分布之间的一对多映射，使用blendshape和3D顶点作为中间表示，其中blendshape提供粗略的运动，顶点偏移描述细粒度的嘴唇运动。

此外，采用多分支变压器网络来充分利用音频上下文来建模与中间表示的关系。

为了更合理地从音频中学习刚性头部运动，研究人员将该问题转化为离散有限空中的代码查询任务，构造了一个具有重构和映射机制的可学习头部姿态码书。

之后，将两个学习到的运动应用于参考标记，从而生成驱动网格。特斯拉疯涨

在第二阶段，基于驱动网格和参考图像，渲染内表面和外表面(例如躯干)的投影纹理，以便完全模拟运动。

然后，设计一种新的两分支运动模型来模拟密集运动，并将其作为输入发送到生成器，以逐帧合成最终的视频。

VividTalk可以生成嘴部同步的头部语音视频，面部表情丰富，头部姿态自然。

如下表所示，可视化结果和定量分析都证明了新方法在生成质量和模型泛化方面的优越性。

框架实现方法

给定一个音频序列和一个参考人脸图像作为输入，新方法可以生成具有不同面部表情和自然头部姿势的头部谈话视频。

VividTalk框架包括两个阶段，分别称为音频到网格生成和网格到视频生成。

音频到网格生成

这个阶段的目标是根据输入的音频序列和参考面部图像生成3D驱动的网格。

具体地，首先，通过使用FaceVerse来重构参考面部图像。

接下来，从音频中学习非刚性的面部表情运动和刚性的头部运动来驱动重建的网格。

为此，研究人员提出了一个多分支BlendShape和顶点偏移生成器以及一个可学习的头部姿势码本。

混合形状和顶点偏移生成器

学习一个通用模型来生成具有特定人风格的准确的嘴部动作和富有表情的面部表情在两个方面具有挑战性:

1)第一个挑战是音频运动相关性。因为音频信号与嘴部运动最相关，所以很难基于音频对非嘴部运动进行建模。

2)音频到面部表情的映射天然具有一对多的属性，这意味着同一个音频输入可能有不止一个正确的动作模式，导致面部图像没有个人特征。

为了解决音频运动关联问题，研究人员使用blendshape和顶点偏移作为中间表示，其中blendshape提供全局粗粒度的面部表情运动，而与嘴唇相关的顶点偏移提供局部细粒度的嘴唇运动。

为了解决面部特征缺乏的问题，研究人员提出了一种基于多分支变压器的生成器，对每个部分的运动进行单独建模，并注入主题特定的风格来保持个人特征。2018ces展会

可学习的头部姿势密码书

头部姿态是影响头部语音视频真实感的另一个重要因素。但是，直接从音频中学习并不容易，因为它们之间的关系是弱的，这会导致不合理和不连续的结果。

受前人研究的启发，采用离散码本作为先验，即使在输入降质的情况下也能保证高保真的生成。晶码战士全集剧情介绍

研究者建议将这一问题转化为头姿空中离散且有限的代码查询任务，并精心设计了两阶段训练机制。在第一阶段，构建丰富的头部姿势码本，在第二阶段，将输入音频映射到码本，以生成最终结果，如下图所示。

网格到视频生成

如下图所示，研究人员提出了一个两分支motionvae来模拟2D密集运动，它将被用作生成器的输入，以合成最终的视频。

将3D域运动直接转换成2D域运动是困难和低效的，因为网络需要找到两个域运动之间的对应关系来更好地建模。

为了提高网络的性能，获得更进一步的性能，研究者使用投影纹理表示在2D域进行这种变换。

如上图所示，在人脸分支中，参考投影纹理P T和驱动投影纹理P Tare连接并馈入编码器，然后输入MLP输出2D面部运动图。

为了进一步增强嘴唇运动，更准确地建模，研究人员还选择了与嘴唇相关的符号，并将其转换为高斯图，这是一种更紧凑有效的表示方法。

然后，沙漏网络将减去的高斯图作为输入，输出2D嘴唇运动，该运动将与面部运动连接，并解码成密集运动和遮挡图。

最后，研究人员根据之前预测的密集运动图对参考图像进行变形，得到变形后的图像，它将与遮挡图一起作为生成器的输入，逐帧合成最终的视频。

实验效果

数据集

HDTF是一个高分辨率的视听数据集，包含超过16小时的346个主题的视频。VoxCeleb是另一个更大的数据集，涉及超过10万个视频和1000个身份。

研究人员首先过滤这两个数据集，删除无效数据，如音频和视频不同步的数据。

然后对视频中的人脸区域进行裁剪，大小调整为256×256。

最后将处理后的视频分成80%、10%、10%，分别用于训练、验证和测试。

实施细节

在实验中，研究人员使用最先进的单一图像重建方法FaceVerse来恢复视频，并获得地面真实混合形状和网格以进行监督。

在训练过程中，音频到网格阶段和网格到视频阶段是分开训练的。

具体来说，音频到网格阶段的BlendShape和顶点偏移生成器以及可学习的头部姿势码本也是单独训练的。

在推理过程中，研究者的模型可以通过级联上述两个阶段，以端到端的方式工作。

优化采用Adam优化器，两个阶段的学习率分别为1×10和1×10。8个NVIDIA V100 GPU上的总训练时间为2天。

与SOTA的比较

可以看出，研究人员提出的方法可以生成高质量的头部说话视频，嘴唇同步准确，面部动作富有表情。

相比之下:

定量比较

如下表所示，新方法在图像质量和身份保持方面表现更好，这通过较低的FID和较高的CSIM指数得到反映。

由于新的可学习码本机制，新方法生成的头部姿态更加多样和自然。

虽然新方法的SyncNet得分低于Wav2Lip，但它可以使用单个音频而不是视频来驱动参考图像，并生成更高质量的帧。

参考资料:

本文来自微信微信官方账号:新智元(ID: AI _ ERA)。

未经允许不得转载：科技让生活更美好 » 一张照片、一段声音秒生超逼真视频！南大等提出全新框架，口型动作精准还原

一张照片、一段声音秒生超逼真视频！南大等提出全新框架，口型动作精准还原

框架实现方法

音频到网格生成

网格到视频生成

实验效果

与SOTA的比较

作者：pu

相关推荐