配备超16000个GH200超级芯片,亚马逊云科技与英伟达共推云AI超级计算机

界面新闻记者|彭鑫陆承

美国当地时间11月28日,亚马逊云技术(AWS)在拉斯维加斯举行的re:Invent大会上发布了两款自研芯片Graviton4和Trainium2,并推出企业级AI聊天机器人“Amazon Q”(以下简称“Q”),抢占AI硬件市场。

在生成式人工智能的热潮下,虽然云计算厂商对自研AI芯片热情高涨,但英伟达GPU仍然是企业进行AI训练和推理的首选。

当天,英伟达创始人兼首席执行官黄仁勋也穿着标志性的皮衣出现在大会现场,并宣布扩大与亚马逊云技术首席执行官的战略合作。双方将联合推出先进的基础设施、软件和服务,包括亚马逊云技术,该技术将支持英伟达最新的H200 GPU,并托管英伟达的人工智能培训即服务平台DGX云。此外,双方正在设计世界上最快的GPU驱动的云AI超级计算机,配置16384台英伟达GH200超级计算机,并基于英伟达芯片构建更多的云实例,以提高生成式人工智能和HPC的高性能计算性能。

亚马逊云技术推出的Gravity on 4和Training 2分别针对数据中心的通用计算和人工智能训练场景。据亚马逊云技术介绍,基于Arm架构的服务器芯片Graviton4与上一代Graviton3处理器相比,性能提升30%,独立核心提升50%以上,内存带宽至少提升75%。

Training 2是一款针对AI大型模型的高性能训练芯片。与第一代训练芯片相比,Training 2的训练速度提高到4倍,可以部署在多达10万个芯片的计算集群中,大大减少了模型训练时间,能效提高了两倍之多。

据界面新闻报道,最先进的大型模型通常包含数千亿甚至数万亿的参数或变量,这对芯片的计算能力带来了诸多挑战,既要保证高性能、安全可靠,又要保证低成本。Tranium2主要强调低成本,高能效,更快的训练能力。

Tranium2已经有了早期客户,数据分析平台公司Databricks和亚马逊支持的OpenAI的竞争对手Anthropic都计划使用Trainium2芯片来训练大型模型。

除了自研定制芯片,亚马逊云科技还推出了首款基于生成式人工智能开发的应用——办公助手“Q”,可以通过聊天实现辅助云开发、服务响应、企业数据查询等功能。

q不是面向消费市场,而是围绕企业需求设计的,定位类似于一个专家助理。但Adam Selipsky强调,Q不会使用企业客户数据来训练其底层模型,Q生成的结果不会穿越不同数据权限之间的防火墙。q可以设置为只回复安全团队的相关安全问题,不在公司内部或者与业务无关的人无法获得安全问题的答案。

事实上,在提到亚马逊云技术此前推出的基岩AI基本模型服务时,Adam Selipsky也强调了安全和隐私问题。他还提到了最大的竞争对手微软,但没有指名道姓。

“你不希望看到云提供商与模型提供商捆绑在一起,而是需要一个真正的选择…过去10天的事件非常清楚地表明了这一点。”亚当·塞利普斯基说。他口中的“事件”指的是OpenAI刚刚经历的一场戏剧性的人事动荡。

Re:Invent举办了12年,云市场的竞争环境也增加了很多。虽然亚马逊云技术在公有云领域保持领先地位,但竞争对手微软Azure凭借与OpenAI的深度合作,正在扩大市场份额。

市场研究公司科纳仕公司发布的最新报告显示,今年第二季度,亚马逊云技术占全球云基础设施服务(IaaS)支出的30%,同比增长12%。与去年同期相比,亚马逊云技术的收入增长减少了一半以上,这也促使该公司加大对人工智能的投资,以寻找更多的增长动力。同期微软Azure同比增长26%,市场份额占比26%,增速高于亚马逊云服务。人工智能热潮很可能进一步推动市场增加对微软Azure业务的支出。毕竟Azure承载了OpenAI、Meta等公司的AI计算需求。

未经允许不得转载:科技让生活更美好 » 配备超16000个GH200超级芯片,亚马逊云科技与英伟达共推云AI超级计算机