端侧大模型,手机厂商的下一次入口级机会

几个月来,国内外手机厂商纷纷入市,手机大型号突然流行起来。

8月,华为率先宣布将大型机型连接到手机助手,小米和OV紧随其后。就连一向“慢热”的苹果、三星也在悄悄招人;一家宣布将把大型号带到最新的Galaxy旗舰型号。

上游的芯片厂和下游的应用开发商也在行动。近两个月来,高通、联发科相继发布了新一代手机芯片,可以支持手机端百亿参数模型的运算;由萨姆·奥特曼投资的Humane在11月推出了AI Pin,希望建立一个面向未来的操作系统。

大比例模型技术已经进入公众视野一年了。在手机上使用基于大模型开发的应用,如ChatGPT、妙雅相机等,对于第一批大模型早期采用者来说,并不新鲜。

用户似乎并不关心手机上的大模型是运行在云端还是本地。手机和芯片厂商花那么大力气在大机型上推广手机。图的是什么?

首先,新的入口

手机厂商入门模式的第一目标当然是手机助手。

在大模式到来之前,手机助手受限于技术,缺乏智能,只在事先有书面指令的特定任务上表现良好。大模型的自然语言能力,大大提升了手机助手的人机交互能力,大大提升了手机助手深度操控手机的能力。

“手机智能助手已经出现很多年了,但之前没有人真正使用过。”OPPO高级副总裁刘曾表示,“大机型到来后,未来的手机一定是我们的超级助手。大模式能带来图像、操作、图片等各种体验的提升,这是未来一定的。”

在OpenAI最近的发布会上,做了一个演示,通过Zapier链接云数据,调用用户的数据,为用户提供更加个性化的服务。在手机端,这些数据是通过手机助手运行一个大模型检索出来的,甚至可能比云端更直接。

“有大量的短信记录、个人照片、备忘录、日程表等。在手机端。把这些数据变成向量数据库,配合大模型的自然语言能力,可以做出更好的交互。”一位接近行业的人士告诉极客公园,“比如把用户的日程做成数据库,离线存储在用户本地。当用户提出相关问题时,向量检索算法可以利用大模型的能力来做出更智能的回答。所有数据都不会离开手机,确保隐私不会被泄露。”

在最近的发布中,手机公司都强调了这种能力。

VIVO的蓝心小V提到,在数万部手机的图片管理中,用户可以尝试通过语义识别直接表达对照片的内容理解,让小V主动识别相册中有对应内容的照片。

OPPO的小布助手演示了小布助手帮助用户接听电话和进行智能总结的功能。当用户不方便接电话时,小布助手可以直接帮用户接电话,记录关键信息。

最早将大模型连接到手机上的华为小I也提到,小I可以通过自然语言交流直接帮助用户创建场景。比如“每周一至周五早上六点半播报天气。当你戴上蓝牙耳机,播放你最喜欢的歌曲,并将手机设置为静音模式。

这种深度操控手机内容的能力,需要公司对手机系统的功能进行重组,使之成为一个标准化的界面,供大机型操控,显然可以大大提升手机的使用体验。

另一位行业消息人士告诉极客公园,手机厂商在手机助手中部署大语言模型背后的野心可能不止于此。“所有原始价值链在应用程序中都是闭环的。如果手机厂商有一个人工智能助手来理解用户的需求并控制调用其他应用,那么除了用户的体验之外,手机厂商和第三方应用的关系将彻底改变。”

目前,这样的应用控制已经开始出现在手机助手中,尤其是在华为打造的鸿蒙系统系统中。在华为的展示中,用户可以直接用自然语言与小艺的同学进行互动,交流自己的需求,华为会通过元服务拉起相关app,满足用户的需求。

“如果用户接受了这套用法和交互逻辑,未来,每个应用甚至不用做太多自己的接口。在规范了自己的服务核心后,与用户互动的入口直接在大模型驱动的手机助手里。”这位接近行业的人士说。“即使是大型模型控制GUI的开发,比如微软用GPT-4视觉控制iOS的实验,系统也可以直接模拟用户点击,控制app。掌握智能入口的一方,才能真正成为应用的入口。”

端到端的大模式是手机厂商实现这一野心的最佳工具。

首先,手机厂商通常不提供云服务,无法获得廉价的云服务。要满足数亿用户的需求,背后需要大量的大规模模型计算能力支持。端到端的大模式可以让手机厂商省下这部分费用,让商业计划更加成立。

其次,手机厂商在使用端侧AI方面有很强的优势。目前华为、小米、VIVO都采用自主研发的大机型,出厂前可以和手机、芯片公司在底层进行多次调整,实现与硬件的最大适配。目前终端机型对内存的依赖非常大,手机厂商也可以通过优先给自己的终端机型提供内存来保证终端机型的运行。

此外,由于它运行在终端中,大模型的延迟和依赖于网络状态的不确定性也可以大大降低,并且可以更好地完成“助手”的服务。

“我们在网上看到的机器同传,很多情况下,机器是不能同传的,永远是在翻译他之前说的话。如果用端侧做,同传没有延迟。”小米AI实验室主任王斌博士告诉极客公园。

第二,这些困难需要在手机的大型号中解决。

很多公司,比如华为,小米,VIVO等。,现在已经宣布自己的手机助手具备了大模型的能力,甚至开始了内测。但目前手机助手中大模型的能力并不完全来自边端推理,通常来自端和云的结合。

但在大模型能力完全转移到端侧之前,入门级的机会还是很难实现的。大云模式的通话成本会从根本上限制其盈利能力。Humane推出了AI Pin,它还需要额外支付每月24美元的订阅费。很大原因也是为了拉平云AI的通话成本。

然而,在手机上获得大模型仍然存在一些技术和工业困难。

在大模型出现之前,手机作为边缘计算设备,已经可以运行很多AI相关的算法,尤其是视觉算法来处理图像,从而实现暗光拍摄、降噪、人脸解锁等功能。

例如,在著名的华为P30 Pro手机拍摄月球事件中,手机利用AI算法为拍摄到的月球生成更多细节,使照片能够展现出仅靠手机摄像头无法呈现的月球细节。

运行端侧大模型的推理与以往手机AI算法的主要区别在于大模型更“大”。

即使是小型号和大型号,参数通常也需要达到十亿级,一般认为参数达到三十亿后,大型号的思维链能力会提升到更高的层次——与手机原有参数相差一两个数量级左右。

具体来说,大语言模型运行在端侧,主要挑战运行内存。

基于Transformer架构的大模型的底层特点是,推理时,随着对话变长,计算复杂度会增加,而计算成本会增加,推理速度会降低,内存占用也会增加。

服务器级芯片用在服务器上。比如A100有80G显存。就算你用的是小规模显卡,V100,你也有32 GB的内存,可以防止机型内存不足。手机芯片显然远没有到这个水平。

因此,目前的一个主流做法是对模型进行量化。

在大模型中,权重最初是由浮点数存储的。例如,fp16的模型是指使用2字节(16位)用于编码存储训练的模型,而fp32的模型是使用4字节(32位)用于编码存储训练的模型。

简单来说,把浮点数变成内存消耗更低的整数就是量化。如果量化从32位存储减少到8位存储,整个大模型的内存占用可以减少4倍,如果能减少到4位存储,则减少2倍。

但是可以想象,量化之后,大模型的精度和能力也会下降。

接近行业的人士告诉极客公园,一个六七十亿参数的模型,如果量化的话,大概占2G-4G运行内存,可以在手机里运行。安卓旗舰机,平时运行内存能达到16G左右。

这也是高通等芯片公司的研究方向。“借助定量感知训练和/或更深入的定量研究,许多生成式人工智能模型可以量化为INT4模型。基于transformer的大型语言模型,量化到8位或4位权重后,往往可以实现大幅提升的效率优势。”中国人工智能产品技术负责人万表示,“使用低位整数精度对于节能推理非常重要。”

在模型层面,RWKV团队还提出了另一种解决方案。RWKV的大模型不仅基于变压器架构,还基于RNN和CNN架构,改进了底层的大模型,降低了模型的推理成本。

“RWKV并不完全遵循Transformer架构,每次用户通话后都会存储一个对话状态,生成时用这个状态进行推理。这种状态只会变,不会变大。所以RWKV推理即使对话状态变长或者同时调用多个agents也不需要占用更多的计算能力。性能不降,功耗更友好。”RKWV的CTO刘晓告诉极客公园。

RWKV认为,如此庞大的模型有机会在硬件能力较低的设备上运行。

极客公园最近了解到,模型开发者RWKV推出了一款充分利用端侧的AI聊天应用,可以在GitHub上下载,运行RWKV的1.5B模型。

模型本身是fp16的无损版本,没有量化。不过这种机型对手机的要求并不高。手机内存只需要6G,远低于目前安卓旗舰机配置。RWKV表示千元手机足够跑。

RWKV目前有两个端到端的运营模型,分别是1.5b和3b,7b的模型正在训练中。开发者可以使用这个模型来构建对话应用或者调用函数,使用音乐模型来构建音乐相关的应用。无论是性能指标还是效率指标,在RWKV测试中都处于领先地位。

RWKV-5型号在RWKV测试中达到SOTA水平。

RWKV承认,在目前的架构下,对话上下文的准确率可能低于Transformer架构的模型。但刘晓提到,在终端AI的应用中,如果执行角色扮演、情感对话生成、内容创作等对错误容忍度较高的任务,RWKV有很大优势。

除了架构的不同,RWKV在芯片上的运行也与普通的大型号不同。

普通的大型模型主要需要在GPU中运行,用NPU来加速,会带来更多的访问带宽,降低访问延迟。RWKV的大模型除此之外还可以在CPU中运行。这种操作模式对于没有人工智能加速芯片的手机来说可能是一种优势。

一位接近行业的人士这样评价CPU运行大模型:“正常情况下,有一个专用的NPU芯片来运行大模型会更好。操作系统的大量基本功能都在CPU上运行。如果计算能力更大,就很危险,系统可能会挂掉。”RWKV在运行时不会增加内存占用,这样可以更好的在CPU上运行。

第三,端侧大模式能否赋能开发者?

终端模式是确定的趋势,但对未来手机应用生态的影响还不得而知。除了成为手机厂商的新机会,端到端的大模型能否赋能大模型应用的开发者?

对于开发者来说,使用端到端模型最直接的好处自然是可以降低计算能力的成本。

在接受极客公园采访时,大模创业者秋田表达了对节省计算成本的期待:“节省推理的计算能力,其实可以为开发者节省很多钱。比如租一台8卡A100服务器,可能每个月需要6-8万左右的预算,资源很紧张,可能要排队才能租到。”

如果能在手机上运行大模型,除了模型训练的成本,模型运行的计算成本相当于在用户购买手机的时候就已经提前支付了,计算成本会大大节省。

计算能力成本的下降将直接导致很多以前可能没有建立的商业模式的建立,比如AI伴侣服务。

目前虽然已经发布了一些相关产品,比如OPPO宣布未来将基于AndesGPT面向开发者开放代理开发平台,但是手机公司向开发者开放端到端大机型API的场景还没有实现。

但是,即使手机厂商不向开发者开放端到端模型的API,也不代表开发者完全不能利用端到端大模型的能力。

前面提到的RWKV应用程序使用大模型在安装包中运行。这种运行方式,相应的,运行时内存占用过大,就会面临被系统“杀死”的风险。

但受限于端侧大模型的水平,端侧大模型能否用于构建应用取决于应用本身对模型能力的要求。

秋田告诉极客公园,如果应用对大模型要求很高,需要进行微调,而不是使用cue项目,那么即使手机厂商开启了端到端大模型的调用,应用也不一定能够用它完成高质量的推理任务。有些应用可能需要模型的推理速度,所以端侧大模型目前的能力可能难以满足需求。

随着终端大机型能力的增长,手机厂商会逐渐向开发者开放终端大机型能力吗?还是会独自垄断新的入门级机会?未来的商业变革值得期待。

未经允许不得转载:科技让生活更美好 » 端侧大模型,手机厂商的下一次入口级机会