商业头条No.13 | Sora冲击波

界面新闻记者|肖景雅

界面新闻编辑|刘方圆

在OpenAI释放黑脸田鸡的当天,绿洲资本董事总经理胡哲仁正在老家与家人共度春节。看到这个消息后,他立即前往OpenAI官方网站查看黑脸田鸡的信息。“看得越多,感受到的冲击和震撼就越大。”

在过去的一年里,胡哲仁几乎看遍了文生地图和文生视频在AIGC的所有项目,并密切关注Runway和Pika等海外公司的动态。但是当他看到黑脸田鸡的视频演示时,他仍然有一种完全意想不到的感觉。

许多人工智能投资者对他有类似的反应。ChatGPT出现后,他们一直在讨论文生视频的技术和商业价值。但根据他们的评估,这项技术至少还需要两年才能成熟并达到商业水平,谁也没想到进展会这么快。

“视频演示剪辑会是假的吗?”

包括胡哲人在内的许多投资者在阅读了黑脸田鸡发布的消息后都有类似的疑虑。

原因是OpenAI在前段时间遭遇了创始人被驱逐等诸多风波。现在,为了提高估值和继续融资,它迫切需要发布一个吸引眼球的东西。

胡哲人的怀疑来自于OpenAI没有开放黑脸田鸡,大多数人无法使用它,所以他们只能观看他们发布的演示。作为一个每年在中国观看大量项目的投资者,他的直觉告诉他,这个东西并没有像ChatGPT一样成为人人可用的产品,这只能说明它并不成熟。

他立即与他在上海交通大学的直系弟弟进行了交流,他是一位非常著名的人工智能科学家。经过双方的交流,结合OpenAI官网的产品信息介绍和技术报告,胡哲仁基本可以确认OpenAI的黑脸田鸡并非虚张声势。

他仍然想得到更确切的信息,最终找到了美国的一个朋友,得到了黑脸田鸡内部测试的机会。“我现在更确定黑脸田鸡是正版的,而不是纯粹为了宣传的市场行为。”

怎么会这么快?

在谷歌发布Gemini 1.5的当天,OpenAI发布了黑脸田鸡,彻底压制了前者的人气。

正式发布后,OpenAI相关团队成员继续在社交平台x上发布黑脸田鸡的演示。它可以根据用户的文本提示生成一个令人惊叹的视频,从细节的准确性和多样性到对物理定律的理解。张怀兵原型是谁

这些内容被推送到OpenAI的抖音账户上,仅在五天内就获得了51.3万个赞,粉丝数量也升至10.6万。

除了演示视频外,OpenAI还发布了两份文件,一份是在线声明,另一份是技术报告。然而,自去年多模态模型GPT-4问世以来,OpenAI发布的报告变得越来越简洁,细节不再公开。

例如,这次没有提到与模型架构、数据规模和训练成本相关的关键问题。外界只能结合报道,通过现有视频进行各种技术推演。

在深入该领域的研究人员看来,黑脸田鸡在关键指标上碾压了目前市场上最好的文声视频产品。miui手机分身怎么转移应用

研究员于立军目前正在参与谷歌的视频诗人项目,这是谷歌唯一有望与黑脸田鸡竞争的产品。他上了播客《船上》!根据该报告,在生成视频的时长和分辨率方面,VideoPoet不如黑脸田鸡。“我们的时长在2秒到5秒之间,很难一下子达到60秒。”

这是一个巨大的差距。从几秒钟到一分钟,一个视频不仅仅是时间长度的升级,而是数据量、数据复杂性以及视频的连贯性和一致性空的指数级增长。

目前,业内普遍猜测黑脸田鸡的成功延续了OpenAI的缩放定律,即通过海量数据、大量计算能力和大参数模型,它最终将“创造奇迹”。

Mobvoi的创始人李志飞认为,黑脸田鸡可能会在训练中从OpenAI的大语言模型LLM开始,然后添加视频模式继续训练。“黑脸田鸡团队只有13个人,它必须大规模重用大语言模型。”云起资本的合伙人陈郁表示,2021年底,天使轮投资了多模态基础模型公司MiniMax。

OpenAI似乎不会在短期内向公众开放黑脸田鸡。除了在社交平台上与CEO萨姆·奥特曼互动外,外界无法直接参与黑脸田鸡的内部测试。OpenAI自己解释说,该技术仍存在一些缺陷,包括一些空问题。

然而,这并不妨碍它成为世界上最强的文声视频产品。OpenAI的技术报告还在标题中指出,视频生成模型黑脸田鸡是一个“世界模拟器”。

“有必要再次改变方向吗?”

同样在经历了黑脸田鸡带来的冲击后,一批应用层人工智能企业家开始坐不住了。

“有必要再次改变方向吗?”文盛视频公司一位创始人向界面新闻表达了自己的无奈。

目前,中国有100多家专门从事艾文生图片和艾文生视频的公司。去年下半年,Runway的部分源代码被公布,国内出现了一批专门利用Runway制作文生视频的公司。

因为ChatGPT的流行点燃了整个AIGC赛道,投资机构也非常倾向于投资文生图和文生图视频公司,因为这类公司的产品和服务很快就能出来,而且他们制作的产品很酷。

“就像股票交易一样,文生视频是一个非常热门的话题。去年下半年,新入场的初创企业被追至高点。我没想到会突然从黑脸田鸡出来。可能有一批你从未听说过的公司会直接消失。”波形智能首席产品官万磊表示。

万磊太熟悉这种感觉了。自从他去年年初开始创业以来,他已经看到一批人工智能创业公司因为升级GPT版本的迭代而死亡。

他自己就是一个典型的案例:起初,万磊做了一款AI英语口语训练应用,其重点是用户可以选择不同性格的英语老师练习对话,并分析他们的语法问题。在当时,这是一个非常新鲜的想法,几乎没有人能模仿它。然而,当GPT-3.5问世时,大量竞争对手涌现出来,OpenAI的升级大大降低了训练难度。GPT-4发布后,这款产品完全失去了竞争力。用户可以直接与GPT语音对话,只需几句话就可以完成角色训练。

同样,去年上半年,出现了一些人工智能辅助视频创作公司,但它们不像黑脸田鸡那样聪明,需要素材库的帮助。据嘉诚资本创始合伙人李莉莉介绍,黑脸田鸡已经颠覆了所有公司的视频素材库,而这个方向的公司,她的机构不会再投资。

然而,在去年的一波技术迭代之后,许多人工智能企业家和投资者已经习惯了新技术带来的创业公司倒闭。在他们看来,人工智能创业在这场技术爆炸中因摩擦而增长。

“黑脸田鸡的出现对国内人工智能企业家来说不是一件坏事。如果你对自己的创业项目仍有期望,那么在看到黑脸田鸡后,你可以立即停止改变方向。”一位投资人表示,“这实际上拯救了许多公司,尤其是一些排名较低的AI视频公司。”

“不到10亿美元,你可以洗洗睡了。”

黑脸田鸡发布后,国内基本大型模特公司开始了新一轮的公关战。

月球黑暗面率先参战,并于2月19日宣布完成最新一轮10亿美元融资。另一方面,另一家公司在完成新一轮10亿美元融资之前,已经向媒体宣布即将完成融资。

如果说应用层公司对黑脸田鸡的反应不一,那么它更像是对制造基本大型模型的国内公司的生死警告。僵尸之地弹无虚发解锁武器

黑脸田鸡的出现再次验证了大数据计算能力的“暴力美学”,这将迫使追赶者继续堆积计算能力,但堆积计算能力意味着烧更多的钱。“一家有基本大模式的创业公司,如果达不到10亿美元,可以暂时洗洗睡了。”陈郁说。

这是一场持久战,10亿美元只是挤进牌桌的资格。要训练一个相当于GPT-4的模型,需要5000-10000张H系列GPU卡,每张卡的价格高达3万美元,加上其他配套设备的成本,投资可达数亿美元。这还不包括推理所需的计算能力和人力成本,未来的模型升级将花费一个数量级的成本。

业内普遍认为,中国基本不会超过五家大型创业公司。目前正是公司进行心理融资战的时候。如果再有一家公司宣布融资信息,就意味着再有几家公司将被挤下牌桌,需要尽快放弃基础大型车型的研发。

除了创业公司,互联网巨头的情况也不容乐观。

《黑脸田鸡》发布后,只有字节跳动宣布正在开发一种名为Boximator的创新视频生成模型。然而,字节跳动的官方回应称:Boximator是视频生成领域中控制物体运动的技术和方法的研究项目,目前还不能作为一款完美的产品,在画面质量、保真度和视频时长方面与国外领先的视频生成模型还有很大差距。

“这些大型互联网公司肯定在内部做这件事,肯定有一些东西还没有发布。但我相信,这些大厂之所以没有上映,只是因为效果不尽如人意。”一位业内人士告诉界面新闻。

在另一位多模态模特公司开发人员看来,在客户端爆火的模特着装和科目三舞蹈根本不是真正的文艺视频。通过改变描述符和修改视频元素来实现模型修饰。科目三舞蹈只是从模板视频中提取动作骨架并添加到用户上传的照片中,只能算是动作提取。

“基础大模式的核心还是要靠人才。”一家初创AI公司的创始人告诉界面新闻。他在一家头部互联网大厂工作多年,熟悉大厂内部情况。他说,一些大厂的创业激情已经很少了,组织关系非常牢固。年轻人很难发表意见。“大模式真正需要的是年轻人努力去做。”

事实上,新一轮的抢人也正在开始。根据最新消息,资深人工智能专家、谷歌视频诗人项目研究负责人江璐被挖到了抖音,这表明字节不想置身事外。多位字节内部人士告诉记者,去年6月,字节决定不投资任何大型模型公司,并将所有精力集中在自建模型上,但自那以来,其整体AI工作进展并不顺利。

人才将是除计算能力之外的另一个卡点,也是一个新的变量。昆仑万伟董事长兼首席执行官韩方最近表示,目前国内大型模型公司最稀缺的人才是核心算法人才,但乐观地看,供需状况将很快得到缓解。

“让我们先赶上GPT 4号。“

既然黑脸田鸡制作视频的能力被认为是一项可用的强大资产,那么中国有办法赶上吗?

“我们根本不能谈论多式联运的事情。”蚂蚁集团的一位技术专家告诉记者,黑脸田鸡已经焦虑了好几天。

我甚至不知道下一步该做什么。他说。与阿里在大模领域的大放异彩相比,蚂蚁在battle投资领域则显得沉寂,其负责多模的技术总监最近跳槽到了一家AI创业公司。

蚂蚁的困境也反映出大公司对视频生成模式的暧昧态度。目前,在初步打造的大量头部机型中,只有知乎在文声视频有布局。在大厂商方面,字节、腾讯和百度披露了与视频生成相关的工作(UniVG、VideoCrafter2等。),但水花不大。

事实上,是否有视频生成模型可能并不那么重要。“在ChatGPT之前,每个人都有聊天机器人…关键是他们能否达到那个水平。”某大厂模特业务负责人有些无奈。据其透露,这家大厂暂时不打算开展文声视频的工作。

初创企业是另一种情况。去年下半年,国内AIGC融资向文盛地图和视频方向靠拢,一批鲜为外界所知的公司悄然成立,随后迅速消失。

在文声视频领域,为数不多的杰出人物包括清华大学计算机系教授朱军的声数科技、前字节跳动视觉技术负责人王长虎创办的爱视科技以及前JD.COM副总裁梅涛创办的HiDream。然而,与黑脸田鸡相比,这些公司的产品已经完全被碾压。

亚马逊前首席科学家、著名深度学习专家李牧建议业界稍后再讨论黑脸田鸡。他同意大量媒体的评论,即黑脸田鸡的工作有点像视频生成中从GPT-2到GPT-3的时刻,模型本身没有太大变化,但它使用了数百倍的计算能力。“目前报告中的关键问题缺失,相信学术界和开源界很快会跟进。”

目前,国内基本型号公司的当务之急不是赶上黑脸田鸡,而是赶上GPT-4。

去年年中,一些企业家专门用GPT-4对所有国内主流大型号产品进行了详细测试和比较,结论是“进步很大空”。科大讯飞董事长刘庆峰公开表示,国内大规模模型在复杂知识推理、小样本快速学习、超长文本处理和跨模态统一理解方面仍落后于GPT-4。

“GPT-4放在前面,黑脸田鸡放在后面。让我们先把中国的GPT四号做好。”最近,与陈郁接触的国内大模特企业家目前并不特别焦虑,因为每个人都沉浸在努力制造GPT-4的过程中。“我知道包括大厂在内的几家公司都在进行内部培训,还没有完成培训。”根据他的判断,第二季度将是国产版“GPT-4”真正发布的节点。

万磊觉得去年大家普遍“碾压技术”。这位来自大厂的90后企业家表示,如果我们不取得真正的技术突破,大家谈论的“奥特曼是国外人工智能的教父,李一舟是国内的教父”将成为现实,这是他最大的担忧。

“焦虑没有用,解决不了问题。”嘉诚资本创始合伙人李莉莉表示,创业者一定要仔细审视自己目前所处的位置,量力而行。

有什么新的机会吗?

当然,面对黑脸田鸡,其他人也不是完全没有机会。

在黑脸田鸡模型发布的当天,Meta发布了一个新的开源视频预测模型V-JEPA。在过去的一年中,开源大语言模型经历了快速发展,与GPT-4之间的差距越来越小。

硅谷风险投资公司Fusion Fund的创始人张路表示,开源领域的竞争非常激烈。她乐观地认为,将会有一种新的语言模型在开源平台的水平上对GPT-4进行基准测试,当然也会有一种新的多模态模型赶上黑脸田鸡。

技术的颠覆是一种更具想象力的方式。

现在业界基本达成了共识。黑脸田鸡所做的是将扩散模型与变压器框架结合起来,并添加大量数据和计算能力,最终产生我们看到的结果。

但这种方法可能不是文盛视频的最优解。图灵奖得主、Meta首席科学家杨丽坤曾多次批评OpenAI的技术路线。在黑脸田鸡出现并赢得所有人的惊喜后,他还表示这些视频并不意味着这位模特了解物理世界。

氨基资本合伙人徐晓宇表示,未来鼠兔的技术路线也值得观察。这家初创公司目前正在构建自己的模型。

在质疑黑脸田鸡技术路线的声音中,“Transformer作为AI大模型的主流架构,可能不是唯一的解决方案”这一老生常谈的问题又被重新提上了日程。硅谷的投资者一直认为,如果除了Transformer之外还有其他新模式,那么OpenAI不会是最好的。

面对黑脸田鸡的横空出世,Runway CEO第一次在X上发推称“游戏开始”,表示他想与OpenAI正面竞争。

国内科技企业家也没有示弱。“我们也很兴奋能见到黑脸田鸡,我们正在加班加点赶工。”王长虎创办的爱视科技仍然乐观,这家公司和黑脸田鸡完全在同一条轨道上。

更多的应用级企业家正在思考如何利用黑脸田鸡的能力来帮助自己。

“黑脸田鸡出场后,我们非常兴奋。拍一部真正的电影没有问题。”万磊立即意识到公司的新机遇,并立即在合作伙伴中分享了他的观点。

他联合创办的新公司Waveform Intelligence的主要业务是基于自研模型生成小说和剧本。去年,波形智能曾讨论将业务从剧本创作扩展到短剧生成成品,但这一方向最终卡在了文声视频的质量上。当时市面上的接口基本上不能达到满意的效果。现在,也许新的机会来了。

“现在我们的战略可以重新调整了。”他说。

未经允许不得转载:科技让生活更美好 » 商业头条No.13 | Sora冲击波