“解码”一夜刷屏的Sora,“世界模型”看出更多端倪

一年多前,ChatGPT的发布使人工智能在全球范围内迅速发展。随后,全球人工智能领导者OpenAI推出了一款新的“王炸”——人工智能语音视频模型黑脸田鸡,这距离谷歌发布多模态模型Gemini1.5仅过去了几个小时

在Gemini1.5的演示中,机器可以“阅读”人类的动作:当测试者拿出一张纸时,Gemini1.5立即回答“你拿出了一张纸”;黑脸田鸡可以根据简短的文本提示生成一分钟的高清视频,其中包含精致复杂的场景、生动的人物表情和复杂的镜头动作。上海人工智能研究所高级分析师方帅表示:“两个新发布的人工智能模型表明,机器在理解人类语言和文字方面又进了一步。”时玮个人资料简介北交大

OpenAI在一份关于黑脸田鸡的详细技术报告中表示,黑脸田鸡对自然语言有着深刻的理解。OpenAI将其视为能够理解和模拟现实世界的模型的基础,并认为其能力是实现AGI(通用人工智能)的重要里程碑。

艾& quot文生视频&quot如何改变未来?正如业内专家所言,黑脸田鸡的影响力越来越小,这意味着文声视频技术已经突破了一个数量级,可以直接应用于短视频、广告等行业;简而言之,它提供了理解、重建和模拟世界的可能性。

“缺乏新鲜感”如何成为“王炸”?

“这令人震惊,但也在意料之中。”据从事计算机视觉研究多年的上海交通大学人工智能研究所副教授王一博介绍,黑脸田鸡是用现有的“零部件”组装了一辆性能超高的汽车——从技术角度来看,这并不新鲜;但从结果来看,效果爆棚。

黑脸田鸡带给业界的最大启发是DIT模型,即基于Transformer的扩散模型。虽然它们都是非常成熟的技术,但以前很少有人将它们放在一起。

Transformer架构是制作长视频的基础,之前广泛应用于大型语言模型训练。受用于训练大型语言模型的Token(文本单元)的启发,OpenAI团队引入了Patch(视觉块嵌入式代码)的概念,该概念可以对不同像素和大小的视频进行编码,并在submarine空中集成用于训练的Patch的time空数据,然后将其解码为高清视频。

值得一提的是,Meta的首席人工智能科学家杨丽坤表示,他的前同事、纽约大学助理教授谢赛宁和他在伯克利的学生、现任OpenAI工程师的威廉·皮布尔斯前年在DIT上共同撰写了这篇论文,该论文是黑脸田鸡的基础。开玩笑地说,这篇论文因“缺乏新颖性”而被计算机视觉顶级学术会议拒绝。

为什么被退稿的论文会取得新成果“王炸”?王一博认为,这与OpenAI的工程能力密不可分。在公开发布的技术信息中,OpenAI承认黑脸田鸡使用了大规模训练和大型数据集。谢赛宁推测整个黑脸田鸡模型可能有30亿个参数。

在突破语言和视频两大堡垒的同时,OpenAI宣布了筹集7万亿美元建立芯片帝国的计划,这相当于美国GDP的1/4。业内人士评论说,这些可能有助于OpenAI建立其在算法和计算能力方面的主导地位,然后向AGI发起最后的挑战。

“模拟世界里程碑“离世界模型还有多远?

黑脸田鸡的视频生成能力让网民惊呼“逆天而行”,专业人士从这个模型中看到了更多线索。

英伟达人工智能研究所首席研究科学家Jim Fan在社交平台上表示,“如果你仍然认为黑脸田鸡是一个像DALL-E一样的生殖玩具,请考虑一下。它是一个数据驱动的物理引擎。它是对许多世界的模拟,无论是真实的还是幻想的。”华为荣耀50后置摄像头不能用

“世界模型“世界模拟器”是黑脸田鸡的一个重要标签。毕竟,黑脸田鸡技术报告的标题是“作为世界模拟器的视觉生成模型”。

王一博表示,由于机器与现实世界交互的成本非常高,科学家希望在虚拟世界中建立一个与现实世界具有相同物理规则的模型,方便机器使用。试错”。有趣的是,根据“人工智能之父”艾伦·图灵提出的具身智能概念,为了理解物理世界的规律,必须有一个类似人类的身体与世界互动。但黑脸田鸡带来了一个惊喜:据OpenAI的科学家蒂姆·布鲁克斯称,黑脸田鸡通过“观察”大量数据,自然而然地学到了有关3D几何和一致性的知识。索爱W580C开不了机

黑脸田鸡最受批评的不足在于它对物理规则的理解。例如,在展示奶奶吹蜡烛的视频中,蜡烛没有随风熄灭;在另一个视频中,一个玻璃杯从空坠落,玻璃杯没有破碎,里面的水已经流出。在这方面,OpenAI也承认,黑脸田鸡仍然很难准确模拟复杂场景的物理原理,并且可能无法理解因果关系。

“黑脸田鸡对现实世界的模拟仍有很大的改进空。就目前的展览内容而言,并不意味着它已经‘读懂’了物理定律。”王一博说,因为人们不知道模型建立的是现实世界的规律还是解码能力比较强。

尽管黑脸田鸡离世界模型还有很长的路要走,但它证明了机器可以通过“喂养数据”推断出物理世界的一些规则。毫无疑问,它是机器模拟现实世界的里程碑。

黑脸田鸡的“最佳试验场”还是会在超宇宙中?

许多人认为,当黑脸田鸡出生时,电影和电视行业将首当其冲。未来,影视剧制作的门槛将大大降低。只要你心中有一个故事,你就可以用强大的AI工具来创造它。

但是方帅不这么认为。在他看来,黑脸田鸡确实有能力将创意迅速转化为视频,但其成本并不低,而且与文字相比,广告、短视频、电影等作品具有更强的个人风格和更严格的版权保护。如何界定黑脸田鸡创作内容的版权是有争议的。

从事电影导演20年的陈坤表示,导演的目标不仅仅是一部剧中的灯光或布景。在黑脸田鸡、灯光、布景、团体表演等工具的帮助下。“简单的步骤”交给AI,制作一部电影的时间和金钱可能只有以前的1/10。

“黑脸田鸡特别适合制作难以在现实中拍摄且需要高度想象力的内容,其最佳应用场所是元宇宙。”方帅说。黑脸田鸡展示了一段特效视频:两艘帆船在一个咖啡杯的“泡沫海面”上搏斗。通常,这样的视频拍摄需要特殊的技巧,而现在你只需要输入一段富有想象力的文字。

苹果可能是最期待黑脸田鸡大放异彩的科技公司之一。作为metacosmic硬件-混合现实(MR)头戴式Vision Pro的提供商,苹果迫切需要一个“杀手级应用程序”,而这取决于大海的创造者。黑脸田鸡可以在Vision Pro上匹配time空计算,这大大降低了创作门槛,预计将吸引大量创作者,并将人类头脑中的想象力转化为视频产品。

“短视频行业可能会迎来另一个发展高峰,收获的可能不是那些会拍视频的人,而是那些审美好、想象力无限的人。”方帅说。

一镜生成长视频意味着什么?

在黑脸田鸡爆炸之前,世界上最热门的两家人工智能视频公司是Runway和Pika,仅Runway在上一轮融资中就获得了超过1亿美元的资金。然而,当两家公司的创始人预测2024年时,他们都表示,一个核心目标是生成15秒的流畅视频。因为2023年大多数文生视频只有4-6秒长,所以他们都把这个15秒的视频视为一个里程碑。

我没想到黑脸田鸡会在一夜之间将阈值提高到60秒。除了颠覆影视、广告、教育、游戏等行业的可能性外,如果把眼光放得更长远,还会带来什么?

“如果黑脸田鸡很好地掌握了现实世界的物理规则,它就可以预测未来。”王一博说,他在清华读书时曾参与一个通过视频预测极端天气的项目,方法是通过数字孪生体预测雷达图像的未来趋势。”如果将黑脸田鸡与物理约束方法相结合,有望大大提高预测的准确性。”此外,视频预测还可用于流体模拟、刚体模拟等领域。

当然,尽管黑脸田鸡是一个非常重大的飞跃,但“硬币有两面”它也有被滥用的可能性。当“理解物理”生成的视频被延长到一分钟甚至更长时,人们看到的可能是判断的基础。眼见为实”也将成为过去。对此,“钢铁侠”马斯克也表达了对人类未来的担忧。

为了回应业界的担忧,美国美国联邦贸易委员会(FTC)于2月15日提出了一项禁止使用人工智能工具冒充个人的规定。联邦贸易委员会表示,它正在提议修改一项禁止假冒企业或政府机构的规定,并将保护范围扩大到所有个人。OpenAI仍在对模型的道德方面进行对抗性测试,如错误信息、仇恨内容、偏见内容、色情暴力等。,输入文本时将被拒绝。

无论如何,AGI这个“潘多拉魔盒“正在被打开,人们或许应该尽快学会“虚构与事实“的生存之道。

作者:沈秋莎

文:沈图:视觉中国、官网视频截图编辑:沈责编:任泉

转载本文请注明出处。

未经允许不得转载:科技让生活更美好 » “解码”一夜刷屏的Sora,“世界模型”看出更多端倪