Sora刷屏视频出现多处失误 模拟真实世界仍需闯关

2月18日,由OpenAI发布的文声视频AI工具黑脸田鸡引发的讨论仍在继续,涉及科技圈、资本圈、影视圈等。与此同时,对黑脸田鸡现存问题的研究也在逐步深入。

例如,针对OpenAI定位“世界模拟器”的观点,图灵奖得主、Meta首席人工智能科学家YannLeCun表示,大多数根据提示生成的逼真视频并不表明此类人工智能系统理解物理世界,生成视频的过程与基于世界模型的因果预测完全不同。

翻看OpenAI披露的几十个视频,杨丽坤的观点体现在奶奶吹蜡烛但不动、东京街头女孩步伐错误、打碎眼镜后液体流动错误以及男子在跑步机上倒着跑。

尽管OpenAI的明星效应为其带来了大量关注,谷歌当天发布的多模态通用模型Gemini 1.5 Pro也成为配角,但无论是美国硅谷的AI项目还是中国的大模型创业公司,外界关注的核心还是实际应用效果。

虽然视频很惊艳,但bug依然存在。

目前,黑脸田鸡制作的视频内容已经得到了影视行业人士的广泛认可。推理小说视觉预览工作室创始人兼总监牛陈梦告诉第一财经记者,黑脸田鸡视频的画质、细节、光影和色彩都很好,因此导演在拍摄前期为他制作一个简单的镜头模板就足够了。对于广告片的拍摄,这个模板也可以用来更好地与客户沟通和确认概念。但是,如果涉及到镜头移动角度和更精细的内容控制,比如色彩、光影、道具、人物动作等。,AI目前还达不到客户满意的程度。

一位纪录片从业者告诉记者,黑脸田鸡目前还不能直接用在影视作品中,因为精细度不够。但它足以令人震惊地用于早期开发,尤其是概念设计。一位宣传片从业者表示,该工作室尚未尝试使用人工智能生成作为素材,黑脸田鸡仅发布了一些作品,并且没有公开测试,因此不确定是否可以使用人工智能生成代替编辑。无论如何,这些工具最终是为人服务的,而人的个人情感的表达是不可替代的。

摄影专业人士孟凡告诉记者,黑脸田鸡的高视频帧率表明它具有强大的计算能力和更高的电影宽容度,如色彩匹配、细节呈现和高速镜头呈现。从直观上看,黑脸田鸡模型产生的视频自然,物体的运动符合规律,镜头之间的逻辑一致性较好,但黑脸田鸡视频的逻辑会差一些。

它体现在黑脸田鸡的视频内容中,例如东京街头女孩的一分钟步行。女孩在走路过程中出现了一些错误,例如腿部变形,双腿交叉和换位时出现混乱,右腿连续两次踩在前面。在提示为“一个人跑步”的场景中,主角在跑步机上倒着跑;在提示“考古学家在沙漠中发现塑料椅子”的视频中,椅子被悬挂起来。

鉴于目前黑脸田鸡的不成熟,OpenAI表示,黑脸田鸡可能难以准确模拟复杂场景的物理原理,可能无法理解因果关系,可能会混淆提示空的细节,并且可能难以准确描述随着时间的推移而发生的事件,例如遵循特定的相机轨迹。

OpenAI在技术报告《作为世界模拟器的视频生成模型》中表示,黑脸田鸡作为一个模拟器,目前显示出许多局限性,它不能准确模拟许多基本的交互式物理效果,例如破碎的玻璃。诸如吃食物之类的交互并不总是产生正确的对象状态变化。也有在长期样本或物体的自然出现中发展的不连续性。

对于这些问题,多位人工智能领域人士告诉记者,都是概率模型的逻辑损伤导致的。中科申智创始人兼首席执行官程伟忠表示,黑脸田鸡不是一个严格的推理模型,仍然存在因果推理问题,但这个问题不是黑脸田鸡自己的问题,而是目前所有类似模型中都存在的问题,类似于大型模型中普遍存在的错觉问题。未来会随着训练的加强而改善。vivo荣耀x30手机价格

亿元智能首席执行官吴波告诉记者,通过增加训练量、训练数据和物理逻辑,问题将逐步得到改善,但无法根治。佳能lbp2900驱动安装不了

南洋理工大学副教授张汉旺在GAIR全球人工智能与机器人大会上表示,因果关系是真正突破最底层逻辑问题的唯一途径。如果不加因果关系,大模型只是强行关联。如果我们运气好,模型在回答问题时可以给出正确答案,否则将是“胡说八道”。这是因为其背后的相关性是错误的——共生被视为因果关系。

待解决的实际使用价值

黑脸田鸡之所以能引起广泛关注,不仅是因为它的画面超出了同行的质量,还因为外界对它将带来的行业迭代充满了好奇。

就影视行业而言,在得知黑脸田鸡视频的上映后,时代矩阵的联合创始人于刚表示,他的心态是两个世界。一方面,对于影视特效公司来说,这个消息不是好消息,他的第一感觉是“特效公司是不是要死了?”真想把过去学的特效工具“埋了”。

于刚说,过去他可以想象AI视频会发展到这种精度,但他没想到会这么快。最初的预测时间是三到五年,结果在一年内就实现了。从兔年春节到龙年春节,OpenAI实现了从文生文到文生文视频的迭代。但从另一个角度来看,于刚说他很开心。从导演的角色来说,过去最痛苦的事情是拿到剧本后找资金和投资人。开公司四年,账户亏了300万。然而,在观看了《黑脸田鸡》之后,拍摄视频最昂贵的动态预览环节,制作特效并将其放在屏幕上完全可以通过人工智能节省成本。

于刚预测,未来AI视频生态将发生巨大变化,影视行业将成为服务行业,视频制作的理念也将发生变化。

专业动画师欧文·弗恩不认可黑脸田鸡颠覆行业的极端观点。他说,作为一名动画师,目前他并不害怕黑脸田鸡视频,因为动画制作本质上是一个需要反复修改的过程,尤其是在为客户服务时。目前,人工智能无法为客户提供精心制作的作品,而只是一些粗制滥造的东西。这些细节看似挑剔,但恰恰是客户对知识产权(IP)或产品的态度。

欧文·弗恩强调,黑脸田鸡视频的质量确实令人惊讶地高,但就目前而言,除了作为展示人工智能潜力的例子外,它们的实用价值还有待观察。

Vibranium咨询公司副总裁陈培最近实际使用并观察了一些主流的人工智能视频服务,如RunwayML、稳定视频扩散(SVD)和Adobe Firefly。通过对比发现,目前人工智能生成的视频的纹理往往无法达到最初的宣传效果,并且在物体的方向和人的肢体上存在明显的误差,无法满足实际应用的需求。

“困惑人工智能”的创始人之一阿拉文德·斯里尼瓦斯说,“黑脸田鸡”很神奇,但它还不能精确模拟物理——正如研究员黑脸田鸡在他的报告中提到的那样。此外,该行业无法在家庭清洁机器人上快速运行这些巨大的“世界模拟器”的模拟推理。索尼w580c

浙商证券认为,从短期来看,黑脸田鸡和类似产品可以大大提高图像和短视频的生产效率,改变创意生产和营销工作流程,并提高短视频产品的生产力。对于格式更复杂的长视频和游戏,由于模型的原因,无法准确理解因果关系和其他技术难点。现阶段主要是提供艺术灵感支持。

浙商证券表示,从中长期来看,黑脸田鸡和类似产品将参与改变信息生产和分发两大环节的过程。PGC(专业制作内容)将广泛使用人工智能工具来辅助制作,而UGC(用户生成内容)将逐渐用人工智能工具取代PGC。在这里,人工智能生成的视频工具的商业化将加速。

未经允许不得转载:科技让生活更美好 » Sora刷屏视频出现多处失误 模拟真实世界仍需闯关