中国AI大模型背后的五大推手,打得不可开交

作者|李水清

编辑|心形边缘

国内公有云巨头“抢客户”的大模式已经白热化。

千足百度AI云宣布其千帆大模型平台已托管42个主流大模型,服务客户超17000人;后脚的阿里云,号称国内超过一半的大型模型公司都在阿里云上运行;就连“黑马赛车手”火山发动机也早就扬言,国内大型模型场70%以上都是它的客户…谁的大型模特客户多?

云计算行业人士对知止记者表示,云巨头旗下已经有大型样板企业,任何人都可以持有自己的“国产OpenAI”。同时,很少有玩家强烈绑定一家云巨头厂商,但在GPU计算供电、开发工具链、社区生态等方面,仍处于“暧昧期”。

经过对智慧和事物的梳理和总结,如下图所示,几大云厂商确实已经有了自己的“势力范围”,云巨头的“百款大战”初见成效。

▲国内部分云厂商大机型相关客户分布(根据公开资料)

11月初,OpenAI推出的GPTs在全球范围内掀起了大规模模型应用开发的浪潮,对计算行业提出了新的要求。更强的计算能力、更低的成本、更容易的开发成为公有云厂商竞争的焦点。为了赢得大头机型客户的青睐,国内云厂商不得不在商战中展示自己的不可替代性。

随着“百款大战”进入深水区,阿里云、华为云、腾讯云、百度AI云、火山引擎、天翼云等云厂商,都展示了他们的杀手锏…国内最大的模式云服务商是哪家?本文试图对此进行深入探讨。

一是云巨头抢客户,大型样板企业排队

国内明星大模型创业公司已经在不同的云巨头下“排队”了。

为了快速获取训练大规模模型所必需的计算能力,自建机房成本高,耽误了商机,大规模模型厂商不约而同地投入公有云厂商的怀抱。行业内出现了一些大型号明星企业和云巨头的强强联合。

在这种情况下,阿里云刚好找到百川智能创始人兼CEO王小川作为其平台,并透露其每个月迭代一个模型的重要原因之一是阿里云支持其完成一个千卡模型的训练任务,阿里云帮助其有效降低了模型推理的成本。

时任华为副董事长、轮值主席徐志军亲临科大讯飞Spark 2.0发布会,共同发布了华为派驻科大讯飞的特战队联合研发的“邢飞一号”大型号国产计算平台,营造了“国家队”大型号的声势。

腾讯云在这里也是如火如荼。腾讯云透露支持MiniMax运行千卡大模型的任务。据腾讯云副总裁魏巍介绍,通过腾讯云新一代高性能计算集群HCC,MiniMax完成了技术基础升级,整体云成本至少降低了20%。

围绕大模型的公有云工厂的客户可以简单分为两类:一类是上面提到的大模型企业,一类是特定行业的大模型终端应用客户。

据知止介绍,目前,阿里云、腾讯云、华为云、百度AI云和火山引擎等几家云厂商已经赢得了大客户。

其中,阿里云和腾讯云在大型模型企业和行业终端应用企业都有布局。智普AI、百川智能、昆仑万伟等企业争夺国内大机型第一梯队,竞争激烈,离不开这两大云巨头的支持。

从公开信息来看,百度AI云、华为云更注重其大模型在行业终端的应用,涵盖医疗、教育、金融、娱乐、能源、气象等领域。

行业“黑马”,字节跳动的火山发动机主要针对大型模型企业。今年火山引擎在各种场景发布了“你的下一朵云”宣言,在大模型领域的势头也值得关注。

值得一提的是,云大昌的大模型客户阵营还不稳定,很多大模型公司选择吃“百家饭”[S2/],这也出现在很多公有云厂商的客户名单中。

例如,百川智能不仅使用了阿里云的云服务,还结合腾讯云向量数据库,构建了基于用户知识库的智能问答演示系统。

MiniMax不仅通过腾讯云新一代高性能计算集群HCC升级了技术基础,之前还与火山引擎合作搭建了高性能计算集群,并基于其机器学习平台开发了超大规模模型训练平台,支持每天1千卡以上的常态化稳定训练。

可以推测,在后续的模型训练和推理中,大的模型厂商选择哪家云服务商仍然不是定数。

二、投资、抢卡、本地化、云工厂开业

争夺大型模型客户是公有云公司围绕资金、计算资源和管理策略的持久战。

花钱投资是国内公有云公司争夺大模式客户最“简单粗暴”的方式。

参考国外OpenAI,微软是其独家云提供商,承担ChatGPT所需的全部计算能力需求,OpenAI的大部分技术优先授权给微软产品。这主要是因为微软通过累计130亿美元的投资绑定了OpenAI。

国内云厂商也在对微软做同样的事情。例如,阿里云牵头投资了创新工场董事长兼首席执行官李开复创办的人工智能公司“万件事”,该公司刚刚于11月发布了首款开源双语模型“易”。阿里云官方微信官方账号在11月份花了很多时间推广这种模式,因为主要是基于阿里云的平台。

但是好的大模型项目很吃香,云巨头很难用投资捆绑大模型客户。

比如OpenAI对Anthropic的强势争夺,就遭到了亚马逊和谷歌的激烈争夺。9月28日,亚马逊宣布将向Anthropic投资至多40亿美元,以实现控股。10月底,谷歌承诺向Anthropic提供20亿美元融资。这样一来,谷歌和亚马逊都不想成为Anthropic的唯一云供应商。

在国内,阿里和腾讯也看中了几个大的模式种子选手。比如今年10月底智普AI获得超25亿元融资,百川智能获得3亿美元融资。阿里和腾讯都是主要投资方。

既然几个“神仙”都投资入股了,明星模特厂商自然不需要承诺与某一个强绑定。

给钱只是个开始,公有云厂商还要出大招——献卡。

为了争夺大模型客户,云厂商竞争的焦点在于GPU计算集群。每个公有云工厂都在努力推广自己的千卡和十卡集群能力。归根结底,这才是吸引大模特客户的核心竞争力。

阿里云宣称可以提供单个集群最大10000块GPU卡,同时承载多个万亿参数模型进行在线训练。阿里的蚂蚁金服模型底层计算集群已经达到万卡规模;百度最近发布的文心4.0也号称在万卡AI集群上进行了训练;11月9日,腾讯联合松江落地国内最大的GPU智能计算中心。谁的智能计算集群更大,也有望为其合作的大型模型企业提供更多资源。

为了打造千卡十卡集群,公有云厂商不惜重金抢购NVIDIA GPU卡。

今年8月,据《金融时报》援引消息人士的话称,阿里巴巴、腾讯、百度和字节跳动等中国互联网巨头向英伟达订购了50亿美元的芯片。大约10万个NVIDIA A800 GPU将在今年以10亿美元的价格交付,另外40亿美元将在2024年交付。

然而,美国扩大限制的政策却在公有云公司的“万卡集群”竞争中掀起了惊涛骇浪。

今年10月,由于美国更新了先进计算芯片和半导体制造设备的出口管制规则,据环球网援引外媒报道,英伟达可能被迫取消明年向中国出口超过50亿美元先进芯片的订单。这无疑给国内公有云厂商“抢客户”的趋势打上了一个问号。

谁会成为中国第一大模型云工厂?所有云供应商的未来都是不确定的,问题应该被搁置。

就连被认为拥有最丰富GPU资源的云巨头阿里云也有些捉襟见肘。

11月初,阿里云A100官网已经暂停出租。近日,阿里云发布财报称:“这些新限制可能对云情报集团提供产品和服务以及履行现有合同的能力产生重大不利影响,从而对其经营业绩和财务状况产生负面影响。”

上游垄断巨头货源紧张。为了保证对大型号厂商的供应,公有云厂商不得不从两方面努力。

首先是节流,可以通过提高现有计算能力资源的利用效率,以性价比高的方式缓解计算能力的不足。

阿里云、腾讯云、华为云、百度AI云、火山引擎等云厂商对存储、网络、计算进行全面升级,提高计算能力利用效率。

比如腾讯云基于星海的服务器,据说可以降低GPU的服务器故障率50%以上。通过存储升级,腾讯云可以在60s内写入超过3TB的数据,支持提高模型训练效率。阿里云10月底推出全新升级的AI平台PAI,采用HPN 7.0新一代AI集群网络架构,推动大规模训练线性扩展效率高达96%;在大模型训练中,可以节省50%以上的计算能力资源。

第二,开源,寻求计算能力的国内替代机会,加速追赶。

例如,今年11月,路透社报道称,百度向华为订购了1600颗910B AI芯片,用于200台服务器,作为英伟达A100的替代品。紧接着,其他大机型和云厂商都透露采购了国产芯片。

根据百度AI云官方信息,其千帆平台可实现95%的加速比和96%的有效训练时间比。同时,千帆平台还兼容国内外主流AI芯片,如昆仑芯、盛腾、广海DCU、英伟达、英特尔等。,支持客户以最小的切换成本完成计算能力适配。

可见,招商、抢卡、国产化已经成为云厂抢占大机型市场的主要方式。

第三,阿里腾讯打头阵,百度字节踢馆,华为扛旗国产

目前,随着OpenAI的GPTs掀起大规模模型定制的新浪潮,对智能计算能力的需求还在不断扩大。

一方面,对抗正在开发GPT-5并继续从微软融资的OpenAI,大型模型企业将需要更强的计算能力。另一方面,大模型更专注于上千个行业,也需要云厂商的开发工具和API更加方便易用,让国内大模型也能“5分钟开发一个应用”。

正如百度创始人、董事长兼首席执行官李彦宏所说:“我们看看国外。除了几十个基础的大模型,已经有上千个AI原生应用,这些都是现在中国市场上没有的。”AI行业要聚焦需求侧和应用层,鼓励企业调用大模型开发AI原生应用。

正如腾讯集团副总裁邱、云与智慧产业集团、腾讯云总裁所说:“云是大模型的最佳载体,大模型将创造下一代云服务的新形态。”

大模式正在重新定义云上的工具,成为公有云抢客户的新赛点。

云巨头正在从工具链和生态社区两个方面做高附加值,降低大模型的应用门槛,帮助大模型企业推广落地。

1。大模型开发平台混沌

目前,公有云厂商陆续推出升级开发工具链,将自身经验沉淀的大型模型训练工具赠送给AI公司和行业终端客户,包括阿里云安百里、百度AI云千帆、华为云升、腾讯云TI平台、火山引擎方舟等。

2。开发者社区活力大赛

云大昌的开发者社区发展,开发者社区越来越活跃,将带动大型模型企业打造的产品的下载和落地应用。比如阿里云宣称自己的一大优势就是被称为“中国版抱脸”的魔法社区。据说模型下载量已经过亿,为开发者贡献了3000万小时的免费GPU计算能力。

3。AI原生应用爆炸

云大昌基于自身业务场景开发了一批AI原生应用,直接供应给需求明确但开发能力较弱的终端客户。比如百度在现有产品中全方位注入AI能力,包括搜索、地图、图书馆、网盘等ToC产品。

公有云巨头的“箭”就是针对这两个领域,只是侧重点不同。

多位云计算行业人士对知止记者表示,目前,阿里云、腾讯云等云巨头的规模效应更加明显。目前大型模式客户较多,以提供云基础设施基地为主,兼顾应用开发。比如腾讯云在计算、存储、数据库、网络等方面陆续推出大模型的新产品,但其混合元素大模型的应用量相对较少;阿里云特别强调其“节省50%以上计算资源”、“线性扩展效率高达96%的大规模训练”等云服务基础能力。

百度AI云的行业终端客户似乎更多,侧重于OpenAI这样为行业提供便利的大规模模型应用的开发,以及百度自有产品的大规模模型赋能。其官方数据显示,截至8月31日,文心一言对外开放40多天后,文心大模型规模已达4500用户、54000开发者、4300场景、825应用、500插件。

华为云、天翼云等玩家基于全栈自研优势,更注重打造自主可控的大规模模型应用解决方案,赋能行业场景应用。此外,一些新的云厂商也有机会。比如火山引擎,凭借大量视频服务背后的GPU卡,海量的数据和用户场景,以及自研的AI模型体验,获得了众多大模型客户。

[/s2/]结论:王者未定,云巨头去大模式“第二战场”[S2/]

云巨头的“抢客户大战”发展至今。一方面,它仍然需要扩大自己的领地,获得更多的客户;另一方面,随着上游货源的紧缺,各家公司也在做漏斗筛选,选择更有实力的大模型厂商和更标杆的行业终端客户,合作推进大模型的商业化。

大模式正在改变云服务的形态,大模式开发平台等PaaS和MaaS服务更有潜力,这还是一个未定的市场。大规模模型应用的开发和部署成为“第二战场”。哪家云巨头能够将其平台与更大的模型或AIGC爆炸性应用进行孵化,就有望在新的战场上赢得第一名。

未经允许不得转载:科技让生活更美好 » 中国AI大模型背后的五大推手,打得不可开交