北大发起复现Sora，框架已搭！袁粒、田永鸿领衔，AnimateDiff大神响应-科技让生活更美好

北京大学团队启动了一项黑脸田鸡重现计划——OpenSORA。

已经制定了框架和实施细节:

最初的团队有13个人:

由北京大学信息工程学院助理教授、博士生导师李源，北京大学计算机学院教授、博士生导师田永红等人领导。

你为什么启动这个计划？

由于资源有限，团队希望集合开源社区的力量，尽可能地完成再现。

lineargradient参数

消息一出，北京大学的一些校友和AnimateDiff的撰稿人立即做出了回应:

其他人说可以提供高质量的数据集:

那么，“国产黑脸田鸡”的新挑战者来了？

计划的细节，三个初步功能已经完成。

首先，让我们看看目前为止公布的技术细节——也就是说，该团队打算如何重现黑脸田鸡。

总体框架将由三部分组成:

视频VQ-VAE

去噪扩散变压器（去噪扩散变压器）

条件编码器（条件编码器）

这与黑脸田鸡技术报告基本相同。

对于黑脸田鸡视频的可变宽高比，该团队参考上海人工智能实验室刚刚提出的FIT（Flexible Vision Transformer for Diffusion Model）实施了一种动态屏蔽策略，以便在并行批次训练的同时保持灵活的宽高比。

具体来说，我们在保持长宽比的同时，将高分辨率视频下采样到最长边的256像素，然后在右侧和底部填充零，以达到256×256的一致分辨率。这便于videovae对视频进行批量编码，也便于扩散模型使用注意力掩模对批量潜变量进行去噪。

对于可变分辨率，该团队表示，在推理过程中，虽然以256×256的固定分辨率进行训练，但使用了位置插值来实现可变分辨率采样。

具体来说:

我们将可变分辨率噪声潜变量的位置索引从【0，seq_length-1】减少到【0，255】以使其与预训练范围一致。这种调整使基于注意力的扩散模型能够处理更高分辨率的序列。对于可变持续时间，VideoGPT中的视频VQ-VAE用于将视频压缩到潜在的空以支持该功能。

同时，需要从extended空位置插值到time空维度，实现对可变时长视频的处理。

在这里，主页还首先给出了两个演示，即10s视频重建和18s重建，分辨率分别为256×256和196×196:

这三个功能已经初步实现。

相关培训代码也已在相应仓库上线:

成员介绍，目前的训练是在8个A100-80G上进行的（显然不够），输入大小为8帧和128×128，大约需要一周时间才能生成类似于ucf（一个视频数据集）的效果。

从目前列出的9个待办事项来看，除了可变纵横比、可变分辨率和可变持续时间外，动态掩码输入和在嵌入上添加类条件这两项任务也已经完成。

未来要做的事情包括:

采样脚本

添加位置插值

在更高分辨率下微调视频质量。

合并SiT

包括更多条件

最重要的是:使用更多的数据和更多的GPU进行训练。

李源和田永红走在前面。

严格来说，开放黑脸田鸡项目是由北京大学AIGC联合实验室和兔子展览共同发起的。

带头人之一李源是北京大学信息工程学院的助理教授和博士生导师。去年，她荣登福布斯亚洲30岁以下杰出人士榜。自强英语

他分别在中国科技大学和新加坡国立大学获得本科和博士学位。

他的研究兴趣是深度视觉神经网络设计和多模态机器学习。其中一篇代表性论文《T2T-维特》被引用了1000次。

第二位领导人是田永红，北京大学博雅特聘教授、博士生导师、IEEE和ACM院士，兼任鹏城实验室（深圳）人工智能研究中心副主任。曾任中国科学院计算研究所助理研究员、美国明尼苏达大学客座教授。

从目前公布的团队名单来看，剩下的大部分成员都是硕士生。

包括李源课题组的林斌在内，他多次参与了“北大版多模态MoE模型”MoE-LLaVA、Video-LLaVA和多模态比对框架LanguageBind（入选ICLR 2024）的工作。

在兔秀方面，与会者包括兔秀智能创始人、董事长兼CEO董少玲（他也是北京大学校友）。

完整列表:

谁能第一个发行中国版的黑脸田鸡？

与ChatGPT相比，引爆文生视频赛道的黑脸田鸡显然更难发展。

目前谁能赢得黑脸田鸡中文版的首发权对公众来说是一个很大的问号。

其中，最大的谣言是字节。

今年2月初，张南辞去了Tik Tok集团首席执行官的职务，负责裁剪和筛选工作，这引发了外界的猜测。

很快，一种名为“Boximator”的视频生成模式浮出水面。

它基于之前的两项成果PixelDance和ModelScope完成了训练。

然而，字节很快否认这不是“字节sora”:

它的效果离黑脸田鸡还很远，而且它暂时不具备着陆条件，至少需要2-3个月才能推出演示供大家测试。

然而，风还没有平息。

去年11月，字节跳动悄悄推出了一款AI绘画工具“Dreamina”，大家的评价还不错。

现在，有消息称:

Dreamina即将推出类似于sora的视频生成功能（目前处于测试阶段）。微软官网加速器

不知道，这是字节的大招吗？

打开黑脸田鸡项目主页:

https://pku-yuangroup.github.io/Open-Sora-Plan/blog_cn.html

https://github.com/PKU-YuanGroup/Open-Sora-Plan

未经允许不得转载：科技让生活更美好 » 北大发起复现Sora，框架已搭！袁粒、田永鸿领衔，AnimateDiff大神响应

北大发起复现Sora，框架已搭！袁粒、田永鸿领衔，AnimateDiff大神响应

作者：pu

相关推荐