Sora成功是站在谷歌肩膀上吗?业内:关键是人才、算力和数据的堆砌

最近,人工智能新巨头OpenAI推出了文声视频模型黑脸田鸡,在全球引发了热烈讨论。

由于人工智能生成的视频时长成功突破到一分钟,加上演示视频的高保真和高质量,黑脸田鸡立即引起了轰动并引发了各种猜测:ChatGPT发布后不到两年就可以推出黑脸田鸡,OpenAI是否“隐藏”了?表现惊艳的黑脸田鸡是否已经具备了世界模特的特质?

然而,OpenAI尚未宣布黑脸田鸡正式向公众开放的日期。目前,只有安全团队、一些视觉艺术家、设计师和电影制作人被允许使用黑脸田鸡。除了内部人士不断发布的演示片段外,OpenAI还在黑脸田鸡官方网站上发布了技术报告。

首先,与GPT模型类似,黑脸田鸡使用Transformer架构,许多研究人员认为这是其强大功能背后的主要功臣。

从本质上讲,黑脸田鸡、Pika、Runway等文学视频模式都采用了类似的底层模式,即扩散扩散模式。不同的是,黑脸田鸡改变了实现逻辑,用Transformer架构取代了U-Net架构。

北京邮电大学智能交互设计副教授覃健告诉澎湃新闻,与其他人工智能模型架构相比,Transformer架构具有两个理论优势:“其核心能力是自动构建不同维度和层次的知识网络或信息网络,即无缝思维导图…权重关联机制(attention mechanism)是其核心能力的另一种体现,即它会根据任何数据的上下文来理解相关的高低维信息。”asynctaskmethodbuilder

覃健强调,要充分发挥变压器架构的核心能力,一个必要条件是有足够的输入数据和足够的维度。

一位AI大模型从业者告诉澎湃新闻,黑脸田鸡的主要技术思路是“通过视觉补丁的方式对不同格式的视频进行统一编码,然后使用Transformer架构进行训练,并引入类似扩散的Unet模式在降维和降维过程中添加和去除噪声”。

通过细节的设计,黑脸田鸡解决了“闪烁”(帧间细节跳跃)的问题,可以直接生成高分辨率(1080p)的图像和60秒的视频,表明“训练序列也很长,训练窗口至少为5秒”。

然而,目前OpenAI的黑脸田鸡报告中仍隐藏着许多谜团。

浙江大学百人计划研究员、博士生导师赵俊博告诉澎湃新闻,黑脸田鸡采用的扩散变压器架构“可能是成功的关键之一”,但OpenAI目前发布的内容基本上没有涉及更多技术细节:“从第一性原理出发,实际上我们目前对变压器神经网络架构的理解非常不足,特别是为什么这个模型在扩大规模后可以有如此大的魔力。”

此外,赵俊博还强调数据是一个巨大的问题。对于黑脸田鸡使用何种数据进行训练,圈内仍有不同意见。据推测,这可能是游戏引擎产生的大规模数据:“可能这些数据是从游戏引擎中吐出来的,但我们真的不知道这些数据是如何收集、制作和处理的,并最终输入黑脸田鸡进行管道预训练。”

那么,黑脸田鸡的出现会给人工智能行业和学术界带来什么影响呢?

赵俊博表示,由于黑脸田鸡仍有许多技术方面有待验证,我们应该“让子弹飞一会儿”:“黑脸田鸡确实会对人工智能视频领域的研究人员和竞争对手产生巨大影响,但这毕竟只是一小部分人。目前,从生成模型的应用层面来看,可控性仍然是一个大问题…所以如果要讨论产业影响,我们还是要搞清楚玩家是谁,有哪些场景,需要解决哪些痛点和需求,这些产业化思维在这里也是一样的。”

覃健提到OpenAI已经用ChatGPT和黑脸田鸡充分验证了纳什嵌入定律。所谓的纳什嵌入定律简单来说就是高维信息世界必须与低维世界无缝兼容,用口语来说就是“降维打击”:“虽然这种高维AI模型的数据和硬件门槛很高,但已经有了第一家跨越式发展的公司,所以未来可能会有更多的群体取得成功,我对此持乐观态度。”virtualdj怎么导入歌曲

值得注意的是,就在2月15日OpenAI发布黑脸田鸡的几个小时前,谷歌也发布了其大型模型Gemini的1.5版本,其中第一个多模态通用模型Gemini 1.5 Pro将稳定处理上下文的上限扩展到100万个令牌。然而,双子座1.5一出现,黑脸田鸡就抢尽了风头。超级大坏蛋20句英语

此外,OpenAI在黑脸田鸡报告中提到的许多核心论文都是由谷歌研究团队提出的,这导致了对两家公司“恩怨”的嘲笑以及OpenAI“站在谷歌肩膀上”的说法。

对此,赵俊博认为,虽然理论的分享非常重要,但在现代科技的发展环境下,“单打独斗、一人当英雄”的时代已经结束:“关键是人才团队、计算能力和数据的积累,以及时间的积累。依靠一个想法来实现如此惊人的系统是不现实的。如果你把它看做一个“大设备”,里面的“技术”

最后,关于黑脸田鸡的出现是否与AGI(通用人工智能)有关,赵俊博前几天也在朋友圈写道:“我反对许多媒体将这项技术类比于AGI,我们离AGI还很远…我认为一个世界模型需要输出动作、预测未来和判断当前状态的能力。黑脸田鸡可能已经学会了世界运作的一些模式,但我们不知道他是否有其他上述能力。但如果它的嵌入有一天可以开放,也许我们可以知道更多。”

未经允许不得转载:科技让生活更美好 » Sora成功是站在谷歌肩膀上吗?业内:关键是人才、算力和数据的堆砌