中文版Sora,难倒互联网大厂

科技圈最热门的话题是黑脸田鸡。黑脸田鸡的影响力早已冲出硅谷,遍布全球,在大洋彼岸的中国掀起了波澜。

在二级市场上,黑脸田鸡概念股已经连续几天上涨,势头甚至比最初的ChatGPT概念股还要糟糕。例如,2月20日,a股和港股的黑脸田鸡概念股中有60多只股票,其中5家公司的股价飙升超过40%。

在科技互联网圈,争夺中国版黑脸田鸡的首发权已成为巨头们的新目标。然而,与ChatGPT的原始中文版本相比,黑脸田鸡的中文版本更难开发,大多数大型制造商都不愿意。曾有传言称将推出首个中国版《黑脸田鸡》的字节跳动20日辟谣称,相关产品的效果与黑脸田鸡相差甚远。

在黑脸田鸡空诞生之前,国内的“千模大战”就已经陷入了胶着状态。没想到,风向突然从图文代转到了视频代,“千模大战”也将进入新阶段。

前一阶段稍显落后的字节跳动在视频业务上具有先天优势,自然不会错过这个弯道超车的机会。这不仅关系到大厂的面子,也是为了捍卫其核心业务——Tik Tok首席执行官张南突然辞职专门从事电影剪辑,这也被视为字节重视AIGC的行动。

(图片来自openAI官网)

尽管没有中国版的黑脸田鸡,但字节跳动一直在入侵人工智能。

在文本生成模型领域,字节的起步时间无疑晚于百度、阿里巴巴等大厂,这也让字节的高层非常恼火。首席执行官梁如波在内部讲话中直言,很难相信技术团队直到2023年才讨论GPT,要知道在行业中表现良好的大型模型企业都是在2018-2021年开始的。

幸运的是,羞愧之后还有改过的机会。

一开始,字节希望以量取胜,去年下半年,它聚在一起推出了十几款AI产品。

其中既有大厂标配的基础大模型“云雀”,也有豆包、会说话的炉子、Tik Tok小青等C端最受欢迎的AI对话应用,还有辅助创作的AI工具,如剧情创作平台“BagelBell”和电商内容创作应用“即时创作”。这一系列AI产品的背后是字节科技副总裁洪定坤领导的新部门Flow。

(图片来自豆包官网)

据悉,字节还在内部开设了大量活水岗,希望调动全公司最优秀的技术和产品人才专心做AI。除了上面提到的洪定坤之外,前产品副总裁齐、社交总监陆游和产品及战略副总裁朱军等高管也火速提供了帮助。甚至在国外,字节跳动也组织了50多个R&D团队来推广洪辰项目。

然而,字节在文本生成模型的轨道上确实落后了。即使后期不断加大投入,恐怕也难以抹平差距。明白这个道理后,结合自身业务情况,字节开始在图像和视频生成领域发力,试图建立差异化优势。春节前后的一系列内部人事变动和团队重组是其为视频代拍模式奋斗的最好证明。

2月9日,张南宣布辞去Tik Tok集团首席执行官的职务,因为他想专注于剪报的发展。众所周知,张南是字节最有权力的高管之一,许多人认为他是仅次于集团CEO梁如波的二把手。其负责的Tik Tok集团是字节最重要的业务。这一次,将其地位降级为负责切割和筛选引起了内外的许多争议。

现在回过头来看,作为视频剪辑和辅助创作工具,剪辑是字节商业版图中与视频生成模型契合度最高的环节,是承载AI视频创作业务的最佳抓手。张南等核心高管主动接手筛选工作,这恰恰说明字节跳动对这个项目的重视。

据悉,张南去年主要精力都放在了剪片上,而Tik Tok的各项业务则由韩尚友(Tik Tok集团新任CEO)、电子商务总裁魏和浦燕姿(Tik Tok本地生活负责人)等高管接手。

去年11月,剪报悄悄测试了一款名为“Dreamina”的AI辅助工具。用户只需输入文本即可生成创意图像。算上研发周期,该项目至少在去年第二季度之前就已立项。如果上述消息属实,张南领导的团队应该更早接管字节AI产品的研发。

在张南正式宣布辞去该集团首席执行官一职后,有报道称他领导的团队将推出一款全新的人工智能视频生成软件。如今,这款备受期待的产品“Boximator”终于浮出水面,这也是字节冲击中国黑脸田鸡的王牌。

黑脸田鸡搅动了一池春水,用一个大模型改变了短视频行业。

据悉,“Boximator”在字节的定位是一种创新的视频生成模型,它将通过控制物体的运动来精确控制视频人物和物体的运动。该模型收集的训练数据来自webVid-10M数据集,并在两个视频生成模型PixelDance和ModelScope中进行训练。双十一成交额再创纪录

然而,就像几天前的回应一样,开发视频生成的大型模型比预期的更困难。根据字节跳动的说法,在保真度、画质和视频时长方面,“Boximator”与黑脸田鸡仍有很大差距,暂时不适合登陆。估计需要2-3个月才能开放测试。

但在2-3个月内,许多事情可能会发生——SORA可能已经迭代到更高级的版本,与尚未落地的竞品拉开了更大的差距;其他竞争对手也可能会赶上并在bytes之前推出类似产品。

对于这些可能性,字节跳动肯定知道,而且比任何人都更焦虑。原因很简单:与文本生成模式相比,视频生成模式与字节跳动的核心业务(如短视频和直播)更密切相关,影响力更大。

如果说搜索是ChatGPT最先颠覆的行业,那么长/短视频无疑是最有可能被黑脸田鸡颠覆的行业。正如谷歌、百度、360等巨头致力于文本生成模型的研发一样,字节跳动也不能在视频生成模型之战中落败。因为随着未来视频生成模式的逐渐普及,短视频内容的生产、营销、变现等一系列逻辑都可能发生变化。

以内容制作为例,制作方对现场演员、编剧和编辑的需求很可能会减少,传统制作流程将大大简化,制作时间将被压缩。这带来的直接后果不仅是生产内容数量的几何级增长和成本的明显下降,而且竞争更加残酷,优胜劣汰加速。

黑脸田鸡走红后,剪贴是否会被替换的问题迅速成为焦点话题。建英只有一条路可走,那就是积极拥抱人工智能,并与黑脸田鸡结盟。如果能成功抱上AI的大腿,用户体量可以更上一层楼,商业化潜力也会大大提升。

举个最简单的例子,目前的筛查只提供基础服务,收费模式很难推广。然而,如果我们能像黑脸田鸡一样提高内容创作者的效率并降低成本,收费就会更有底气。Stability AI和Runway等独角兽的估值飙升,证明了这条路线的可行性。

当然,字节跳动绝不是唯一担心黑脸田鸡的制造商。短视频行业的另一家巨头Aauto Quicker以及以爱奇艺、腾讯视频、优酷和Billie Billie为首的流媒体平台也必须啃下视频生成模式这块硬骨头。

可能是黑脸田鸡的影响太大了,需要时间来消化。也可能是我们应该吸取以前的教训,先埋头做实事,不要急于上台造势。上述大多数大型制造商尚未表示是否以及何时推出类似黑脸田鸡的应用程序。截至发稿,只有芒果超媒表示将探索文声视频等AI技术在媒体领域的落地。但明眼人都看得出来,这些大厂都不会错过这场全新的“千款大战”。

有了危机感,才会有动力。大厂们集体冲刺,谁能率先撞线?

冲刺中国版黑脸田鸡,哪家中国工厂最先上线?

要猜测谁能率先开发中国版的黑脸田鸡或类似黑脸田鸡的视频生成模式,我们必须首先看看此类产品的研发难度。

从openAI发布的报告来看,黑脸田鸡没有应用任何新的研发成果,核心技术已经公开。其中,视频压缩网络、扩散模型、视觉补丁(类似于本文生成的大模型的文本标记)、图像和视频编辑是最关键的环节。从本质上讲,黑脸田鸡仍然是一个基于Transformer架构的扩散模型,这与ChatGPT有许多相似之处。

这里不讨论技术原理和繁琐的训练过程。可以肯定的是,所有大型制造商都有开发中国版黑脸田鸡的基础,起跑线上不会有太大差异。除了测试财务资源之外,就像之前的中国版ChatGPT一样,数据样本、计算能力和测试条件将在很大程度上影响最终结果。

其中,数据样本关系到大模型的效果。训练数据越丰富、越完整,视频大模型就能越接近物理世界的真实情况。算力是训练效率的决定性因素,也是跑赢竞争对手的关键。测试环节更决定了产品的落地效果和稳定性。

硅谷巨头们的选择出奇的一致,他们都在努力。open AI CEO奥特曼表示,计划筹集8万亿美元投资AI芯片,从而彻底解决AI模型训练的算力问题。微软、Meta、谷歌和其他大公司正在疯狂囤积NVIDIA H100,但他们也在抓紧时间开发自己的芯片。这些策略最初是为文本生成模型准备的,现在可以完美地应用于视频模型。电脑突然没声音但是音量图标正常

国信证券在最新研报中指出,与ChatGPT等大型文本生成模型相比,黑脸田鸡训练数据量明显高出一个级别,对计算能力的要求自然更加苛刻。根据这份研究报告引用的数据,以全球最大的视频分享网站YouTube为数据源,每年视频增量约为157.68亿秒。即使使用NVIDIA中最先进的H100,单次训练也需要一个月,GPU消耗为156.98万。

众所周知,H100长期供不应求。再加上不可抗力的影响,国内厂商在算力方面将落后于硅谷巨头,只能在其他环节努力缩短差距。相比之下,字节在训练数据源方面比其他大厂更有优势。迅雷看看动漫

你知道,黑脸田鸡与其早期未成形的视频模型(如PixelDance和Stable Video Diffusion)相比有了显著改善,数据量是一个关键点。抖音和TikTok是国内和海外市场用户和创作者最大的短视频应用程序,拥有最多的短视频内容,可用于训练大型模型。不用说,字节还有今日头条、西瓜视频等内容库,完全独立于数据源。不过,其他大厂也不会落后太多,肯定会想尽办法抹平差距。

观察这些天,与当初同样闻名全球的ChatGPT不同,业内人士对黑脸田鸡的态度不仅是钦佩和钦佩,而且还有更深的恐惧。这不仅是因为黑脸田鸡的视觉冲击力比ChatGPT更强,还因为前者改变相应行业的路径相当清晰——这也决定了大型制造商将投入更多资源尽快打赢这场硬仗。

总之,“千模大战”进入了一个新的阶段。随着时间的推移,我们肯定会看到许多中国版的黑脸田鸡。只是对于一家大厂来说,既然不能成为“唯一”,那么争取“第一”才有意义。

未经允许不得转载:科技让生活更美好 » 中文版Sora,难倒互联网大厂