梭哈大模型的公司,给自己找了条退路

虎嗅科技集团出品

作者|齐健

编辑|王

图图| |达尔-E 3

2月1日,Facewall Intelligent发布了最新的旗舰端侧AI模型MiniCPM-2B,参数规模达到20亿,并使用1TB的精选数据进行训练。

Facewall Intelligence首席执行官李大海在发布会上表示,MiniCPM-2B在许多主流评估列表和中英文平均得分中超过了开源的Mistral-7B,甚至超过了猎鹰-40B和MPT-30B等数百亿参数模型。

尽管MiniCPM-2B仍然被Wall Intelligence定义为“大型模型”,但许多人认为在拥有数千亿和数万亿参数的大型语言模型(LLM)背景下,只有几十亿参数的模型应该被称为“小型模型”。

在2024年1月达沃斯世界经济论坛期间,微软首席执行官塞特亚·纳德拉在接受彭博采访时称赞微软的Phi是“最好的SLM(小语种模型)”。纳德拉表示,在人工智能方面,微软坚定地“掌握自己的命运”,不会仅仅依赖OpenAI的大语言模型。

Phi是微软于2023年6月发布的一个拥有13亿个参数的语言模型,9月发布的Phi-2参数规模已经扩大到27亿个。在一些常识推理、语言理解、数学和编码任务中,Phi-2甚至以70亿和130亿个参数超过了Llama 2。

据外媒The Information报道,微软已经成立了一个新团队来开发对话式AI。与OpenAI的模型相比,该团队的研究方向更倾向于小规模、低算力需求的模型。据知情人士透露,微软已经将其他研究小组的几位顶级AI开发人员转移到这个新团队。

在AI大模式之外另辟蹊径,或许是微软在AI时代掌控自己命运的最佳选择。对于那些没有条件“依赖”OpenAI且难以追赶OpenAI的公司来说,微软的做法似乎是一种启发——当行业普遍关注超大规模参数时,反其道而行之的“小模型”似乎正在成为All in AI大模型的“退路”。

“小模型”有什么优势?

事实上,AI行业对小模型的定义并不统一。沃尔智能首席研究员韩旭表示,“不是20亿参数的模型小,而是1万亿参数的模型太大。我们应该把GPT-4这样的模型称为超大型模型。”中国工业互联创始人支振认为,10-30亿参数的模型更适合称为轻量化大模型或嵌入式大模型。”

并非所有在2023年年中发布的大型语言模型(LLM)都具有非常大规模的参数。除了业内几个顶级的大模型外,大多数主流开源模型的参数都是70亿和130亿。Meta发布的LLaMA 2系列车型的最大参数仅为700亿。

对于一些AI公司来说,训练和推理的成本是限制模型参数规模的主要原因之一。业界普遍认为,GPT-4一次训练的成本约为6300万美元。

LLaMA 2的论文提到了在训练模型的过程中使用的NVIDIA A100 80GB版本的数量。训练70亿参数模型大约需要18万GPU小时,训练700亿参数模型所需的算力资源相应增加10倍,达到172万GPU小时。

骆驼2号纸

根据阿里云目前的报价,8台40G A100 GPU服务器每小时的租赁费用为252.66元。即使将40G的A100作为80G使用,在阿里云上完成一个700亿参数的LLaMA 2模型训练也要花费5433万元。如果将参数数量减少到20亿个,则训练一次的成本可能不到200万元。

在推理成本方面,GPT-4等超大型模型也远高于参数较小的模型。

1月25日,OpenAI宣布2024年首次API价格调整。GPT-3.5-Turbo的最新投入价格将降低50%至0.0005美元/1000枚代币,产出价格将降低25%至0.0015美元/1000枚代币。鼠标右键失灵左键变成了右键

目前,OpenAI最昂贵的API是GPT-4-32k,输入价格为0.06美元/1000个令牌,输出价格为0.12美元/1000个令牌。与GPT-3.5涡轮增压发动机相比,GPT-4-32k发动机的价格分别高出120倍和80倍。

GPT-4和GPT-3.5涡轮增压之间的参数不是很大。如果将模型压缩到十亿级,运行模型的推理成本可以降低到大约等于购买运行模型的端侧设备的成本。

目前,许多模型可以绕过云服务,直接在本地PC上进行训练和推理。在高端PC设备方面,一些开发人员已经尝试使用苹果的统一内存架构芯片研究LLM。在配备M2芯片和192GB内存的Mac Studio上,他们甚至可以运行具有700亿参数的LLaMA 2模型。

Face-wall Intelligence最新发布的mini CMP-2B将“小型模型”的运行环境降低到了另一个水平。在MiniCPM-2B发布会上,李大海在OPPO Find N3上演示了该模型的离线推理。文本处理速度也很快,几乎达到7 tokens。

“以搭载骁龙855芯片的OPPO手机为例。一部手机的成本大约是600元人民币,它将使用5年。按照每秒7.5个代币的吞吐量计算,输出170万个代币的推理成本仅为1元。”李大海表示,目前GPT-4的推理成本约为4700元人民币。目前,手机尚未针对AI推理进行大规模优化。随着端到端模型的普及,未来手机的推理成本将进一步下降。

参数规模较小的机型除了对算力要求低、不卡顿外,还“喜欢”低端GPU。

2023年11月,麻省理工学院(MIT)的一篇论文介绍了其在超级云高性能计算系统上使用不同规模的LLaMA模型(7B、13B和65B)进行的推理实验。实验表明,在相同的硬件环境下,模型参数越小,功耗越低。

有趣的是,尽管在使用低内存和低功耗的V100 GPU时,三种尺寸的LLaMA模型的每秒能耗明显低于A100,但参数最小的7B模型的能耗更明显。

来源:从单词到瓦特:大型语言模型影响力的能源成本基准。

与超大参数规模的LLM相比,“小”模型的最大优势是更“经济”,不仅省电、省钱、省时。而这种“省”的特点也决定了小规模模式更容易落地,更容易赚钱。

“大型公共模型本身几乎没有为企业提供任何价值。”戴尔人工智能战略高级副总裁马特·贝克(Matt Baker)曾在与Meta谈论LLaMA 2落地业务时表示,客户不应该为对其业务知之甚少的超大AI模型付费。

Matt指出了一个关键问题——虽然参数规模较小的LLM在模型能力方面与超大型模型有一定差距。然而,在今天的许多垂直场景中,对AI大模型的通用性和通用性的要求并没有那么高,一些行业用户甚至希望AI不要太“发散”。

对“小型车型”的需求无处不在

虽然在发布MiniCPM时并没有明确提出应用场景,但面壁智能只给出了一个半开玩笑的应用场景——野外生存套件。然而,当AI大模型可以在手机和电脑上流畅运行时,它为应用程序的落地提供了巨大的想象空间。

事实上,超大规模AI模型的用户需求层面存在一定程度的偏差,这在工业、金融、汽车等急需AI的三大领域尤为明显。

“工业领域的知识有其普适性,所以工业AI不一定要有海量的参数。”支震认为,在不同的工厂和行业中,很多数据和标准是高度相似的,比如配电和工厂的建筑标准。对于数据和标准差异较大的行业,可以有针对性地开发特殊模型。AI big model在工业场景中的作用更多是理解非结构化问题,然后帮助人类找到标准答案。目前,中公互联已研发出一款拥有16亿参数的大型轻量化模型——致公-1.6B。

虽然工业场景很多,但工业企业普遍不富裕,因此落地速度相对较慢。目前,AI行业普遍认为大模型最快的领域是金融。

“银行的数据基础很好,出手也相对大方。”智普AI CEO张鹏告诉胡玮炜,国内AI公司的早期客户很多来自金融行业,智普AI还为金融行业客户定制了行业技术模型FinGLM。

在许多金融场景中,基金经理或股票交易员每天都需要处理海量的新闻信息。作为AI副驾驶的用户,他们不仅需要技术的泛化能力,还需要能够与具体应用场景紧密结合的解决方案。AI技术的应用可以显著提高他们的工作效率。

根据信息,微软的“小模型”已经在一些金融和银行客户中进行了测试,其中高盛一直在测试微软的Phi模型。

金融行业对轻量化大模型的态度显然更加友好。首先,出于安全考虑,金融行业无法接受基于公有云的大AI模式。在某些场景中,可能会使用私有云,在某些地方,需要在离线的端侧设备上运行AI。由于基础设施的限制,很难落地一个需要大量计算能力的超参数模型。

此外,金融行业对AI的实时响应效率要求很高。参数过大模型的响应速度不仅受运算推理速度的限制,还受网络速度的影响。在一些需要实时交易或判断的金融场景中,零点几秒的延迟可能会错过巨大的收益。因此,能否在本地部署成为一些客户选择AI模型的参考条件。

根据微软披露的信息,面向银行和对冲基金等大客户的AI Copilot项目可以实现自动编程、报告撰写、数据汇总和分析等多项功能,预计将带来100亿美元的收入。锤子手机发布价格

在过去的一年中,包括Jane Street和Intuit在内的金融公司通过微软购买了OpenAI技术,摩根大通也增加了其在微软云上的OpenAI模型购买,该模型用于开发客户服务聊天机器人和自动生成公司财报工具。瑞星企业版杀毒软件

花旗银行、摩根大通和高盛等金融巨头都在2023年下半年增加了对微软人工智能产品的投资。这些产品不仅包括办公软件中的副驾驶,还包括一些定制的人工智能模型开发服务。

除了工业和银行,AI大模型的另一个主要落地场景是汽车。

在2024年初的CES上,奔驰、宝马、大众等纷纷亮相。展示了集成了最新AI大型模型技术的汽车系统。国内公司比亚迪最近也推出了全新的智能汽车架构“玄寂”及其人工智能大模型“玄寂人工智能大模型”。

汽车无疑是除了电脑和手机之外最重要的终端设备。随着新能源汽车的快速发展,汽车系统有机会变得像手机一样无所不能。这也导致许多手机厂商纷纷转型造车,以期通过手机端的产品思维跨界抢占新的终端市场。

在AI模型爆发的那一年,“软件定义汽车”的概念迅速兴起,而驾驶环境的特殊性可以说为AI模型在车内提供了天然的落地环境。

然而,基于云服务的主流大模型想要上车,必然会受到网络环境的限制。虽然在过去几年里,汽车行业在车联网的发展上投入了大量资金,但汽车的使用场景过于复杂,很难实现全流程的驾驶联网。因此,在AI模型“上车”的许多场景中,离线运行的能力尤为重要。

这也为轻量化车型应用于汽车发动机系统提供了许多机会。

行业巨头早已秘密布局。

在人工智能市场需求持续上升的情况下,2024年生成式人工智能供应端的重点正在迅速转移。

Face-wall Intelligence此次发布的mini CMP-2B并非孤例。轻量化模型和端侧AI成为AI大战的新主战场。

在AI大模型的研发端,国内外最早关注“小模型”的公司是刻板印象中应该只爱超大模型的头部云厂商。

2023年12月,阿里云推出了拥有18亿个参数的依桐钱文1.8B和由对齐机制创建的人工智能助手Qwen-1.8B-Chat。该模型使用超过2.2万亿tokens数据进行预训练,包括高质量的中文、英文、多语言、代码、数学等数据,涵盖通用和专业领域的训练语料。

阿里云首席技术官周表示:我们希望通过这种模式,每个人都可以有更多的开放探索,比如机器人和物联网,这些“小模式”可以集成到终端。这是一种趋势。

除了小参数的LLM外,广义千问在模型的量化压缩过程中也表现出色。70亿的开源参数Qwen-7B在模型的量化和压缩性能方面得到了一些行业的认可。在联想正在开发的AI PC功能中,它基于Qwen-7B模型做了一些量化和压缩工作。

“事实证明,一个参数存储在两个字节中。压缩后,一个参数可以只存储半个字节,并且可以保持原始模型的性能。”联想研究院研究员谢东表示,压缩的人工智能大模型+电脑本身的缓存可以运行5-6G的内存。“我们可以用相同的参数将原始大小为14.4GB的Qwen-7B压缩到4GB .”

MiniCPM-2B还用INT4对模型进行了量化,模型的总存储容量只有2GB。

随着模型参数的大幅下降,AI不再局限于云端,AI大模型的战争已经开始从模型烧到终端。

在PC端,微软再次成为风暴的中心。

在过去的十年中,尽管微软不断加大对云计算的投资,但其核心业务始终集中在传统软件和PC上。如果AI已经在云上诞生,尽管它极大地促进了Azure业务的发展,但就PC业务而言,微软可能需要花费更多的精力来“重做”Windows和Windows PC。

2024年CES前夕,微软宣布在新款Windows 11电脑上配备了Copilot按钮,可以一键呼叫AI聊天机器人。Windows PC的键盘布局上一次发生重大变化是在30年前。除了添加按钮外,微软还试图使用简化语言模型(SLM)来处理Bing AI聊天机器人和Windows Copilot用户的基本查询。

除了微软、联想等PC厂商外,手机厂商也在积极研发新产品,加速轻量级AI机型的落地。

1月18日,三星推出首款AI手机Galaxy S24系列,该系列手机拥有实时通话翻译、AI图像编辑等多种AI功能。国内手机厂商VIVO也推出了蓝心系列大模型系列,包含亿级小参数模型,主要打造面向端到端场景的专业大文本模型,具备本地化文本摘要和摘要能力。

在谷歌发布的最新Gemini型号中,参数最小的Gemini-nano也已在谷歌Pixel 8 Pro智能手机中预订。

目前,MiniCPM-2B已经在许多主流手机中取得了不错的成绩。

主流手机上mini CMP-2B的输出速度。

标签

在主流厂商和场景需求的推动下,市场份额达到90%的NVIDIA也面临着云协同的新变革,终端AI的快速发展可能会推动端侧硬件抢走云端的独家AI算力需求。

高通最新的移动芯片骁龙Xelite Oreon CPU于2023年10月推出,集成了转换为人工智能的高通Oreon CPU,并支持在终端侧运行具有超过130亿个参数的人工智能大型模型。当运行具有70亿个参数的大型模型时,它每秒可以生成30个令牌。

2024年1月刚过,轻量级AI模型和AI硬件市场就推出了多款新产品。AI在端侧的落地仍在加速。轻量化机型和为这些机型开发的硬件产品正在开启AI硬件混战的一年,也或将为2024年贴上“AI硬件元年”的标签。

当谈到缩小参数规模是否会限制AGI未来的发展时,清华大学常任副教授刘志远表示,“在我看来,大模型不是一种产品,而是一种技术。”他认为,如果我们只看模型参数的规模,今天的MiniCPM可能与五年前的BERT规模相似。然而,大模型的技术体系发生了翻天覆地的变化。“技术是一脉相承的。如果我能让一个20亿参数的模型达到40亿模型的效果,那么我也可以利用这项技术制作一个800亿甚至8000亿的模型。”

未经允许不得转载:科技让生活更美好 » 梭哈大模型的公司,给自己找了条退路