从 20 亿数据中学习物理世界,基于 Transformer 的通用世界模型成功挑战视频生成

构建一个可以制作视频的世界模型也可以通过Transformer来实现!清华大学和卓越科技的研究人员联合推出了一个全新的视频生成通用世界模型-世界造梦者。它可以在自然场景和自动驾驶场景中完成多种视频生成任务,如文生视频、图文视频、视频编辑、动作序列视频等。

据团队介绍,WorldDreamer是业内首家通过预测Token建立通用场景世界模型的公司。jsp页面显示源码

它将视频生成转化为序列预测任务,可以充分学习物理世界的变化和运动规律。可视化实验证明,WorldDreamer已经深刻理解了宇宙世界的动态变化规律。

那么,它能完成哪些视频任务,效果如何呢?

支持多种视频任务

图像到视频

WorldDreamer可以根据单个图像预测未来的帧。

只要输入第一幅图像,WorldDreamer就会将剩余的视频帧视为被屏蔽的视觉标记,并对这些标记进行预测。

如下图所示,WorldDreamer具有生成高质量电影级视频的能力。生成的视频呈现无缝的逐帧运动,类似于真实电影中的平滑相机运动。而且,这些视频严格遵循原始图像的约束,以确保帧构图的显著一致性。

文本到视频(文本到视频)

WorldDreamer还可以基于文本生成视频。

仅给定语言文本输入,此时,WorldDreamer认为所有视频帧都是被屏蔽的视觉令牌,并对这部分令牌进行预测。

下图显示了WorldDreamer从各种样式范例的文本生成视频的能力。生成的视频与输入语言无缝契合,其中用户的输入语言可以塑造视频内容、风格和相机移动。

视频修复

WorldDreamer可以进一步实现视频修复任务。

具体来说,给定一个视频,用户可以指定一个遮罩区域,然后可以根据输入的语言更改遮罩区域的视频内容。

如下图所示,WorldDreamer可以将水母替换为熊,或将蜥蜴替换为猴子,替换后的视频与用户的语言描述高度一致。

视频风格化(视频风格化)

此外,WorldDreamer还可以将视频风格化。

如下图所示,输入一个视频片段,其中一些像素被随机遮罩,WorldDreamer可以更改视频的风格,例如,根据输入语言创建一个秋季主题效果。

动作转视频(动作转视频)

WorldDreamer还可以在自动驾驶场景下实现驾驶动作到视频的生成。

如下图所示,给定相同的初始帧和不同的驾驶策略(例如向左和向右转弯),WorldDreamer可以生成与第一帧约束和驾驶策略高度一致的视频。

那么,WorldDreamer是如何实现这些功能的呢?

用 Transformer 构建世界模型

研究人员认为,最先进的视频生成方法主要分为两类——基于Transformer的方法和基于扩散模型的方法。

使用Transformer进行Token预测可以有效地学习视频信号的动态信息,并重用大型语言模型社区的经验。因此,基于Transformer的方案是学习通用世界模型的有效方法。

然而,基于扩散模型的方法难以在单个模型中整合多种模式,并且难以扩展到更大的参数,因此难以学习宇宙世界的变化和运动规律。

然而,目前的世界模型研究主要集中在游戏、机器人和自动驾驶领域,缺乏全面捕捉宇宙世界变化和运动规律的能力。

因此,研究团队提出WorldDreamer来加强对一般世界的变化和运动规律的学习和理解,从而显著增强视频生成能力。

借鉴大规模语言模型的成功经验,WorldDreamer采用Transformer架构将世界模型建模框架转化为无监督的视觉Token预测问题。

具体模型结构如下图所示:

WorldDreamer首先使用视觉Tokenizer将视觉信号(图像和视频)编码为离散Token。

屏蔽后,这些令牌被输入到研究小组提出的SPT临时补丁Wuse Transformer(STPT)模块。

同时,文本和动作信号被编码成相应的特征向量,作为多模态特征输入到STPT。STPT在内部交互学习视觉、语言、动作和其他特征,并可以预测被掩盖部分的视觉表征。最后,这些预测的视觉表征可用于完成各种视频生成和视频编辑任务。

值得注意的是,在训练WorldDreamer时,研究团队还构建了视觉-文本-行动(Visual-Text-Action)数据三元组。训练过程中的损失函数只涉及预测被屏蔽的视觉令牌,并且没有额外的监督信号。

在该团队提出的这个数据三元组中,只有视觉信息是必要的,也就是说,即使没有文本或动作数据,WorldDreamer仍然可以进行训练。

这种模式不仅降低了数据收集的难度,还使WorldDreamer能够在不知道或仅具备单一条件的情况下支持视频生成任务的完成。

研究团队使用了大量数据来训练WorldDreamer,其中包括20亿个洗过的图像数据、1000万个通用场景视频、50万个用高质量语言标记的视频以及近1000个自动驾驶场景视频。

该团队反复训练了10亿次可学习参数。融合之后,WorldDreamer逐渐理解了物理世界的变化和运动规律,并具备了各种视频生成和视频编辑能力。周春秀的简历

纸质地址:

https://arxiv.org/abs/2401.09985

项目主页:

https://world-dreamer.github.io/

本文来自微信公号:量子比特(ID: Qbitai),作者:云忠3100g是多少斤

未经允许不得转载:科技让生活更美好 » 从 20 亿数据中学习物理世界,基于 Transformer 的通用世界模型成功挑战视频生成