苹果的AI大模型冲刺:新技术,旧生意

AI技术的进步解决了困扰苹果软件团队14年的问题——做出一款无愧于iPad的计算器应用。

iPad上不是有计算器吗?一个从业十几年的老用户,可能瞬间失忆,脑子里闪过一个iPhone计算器。事实上,在过去的十几年里,苹果平板电脑“电脑”的用户如果想要计算什么,就必须拿出手机或者下载第三方软件。

苹果为第一代iPad做了一个计算器,但是在发布前一个月就被砍掉了。2009年底,面对创始人乔布斯“计算器app新设计还没来”的质疑,当时的苹果软件部门负责人拿出一个界面,把iPhone计算器放大到10英寸——要知道,乔布斯只会有一种反应。

iPad发布一年半后,乔布斯去世了。又过了一年,因为Map的失败,苹果软件部门的负责人被CEO蒂姆·库克解雇。苹果软件工程副总裁克雷格·费德里吉(Craig Federighi)觉得,app store里已经有很多第三方计算器了,如果苹果要造一个,那一定是“最好的iPad计算器”。第一类是14年。

美国当地时间6月10日上午,在WWDC全球开发者大会上,当Fedrighi宣布iPad终于有了计算器时,苹果总部的开发者们发出一片欢呼。起初,他们可能只是惊讶于苹果还在考虑这个东西,但随着演示的进行,他们相信苹果真的拿出了最好的计算器。

iPad的计算器会识别屏幕上手写的数学公式,写下等号就会出现答案,然后调整公式,答案就会自动变化;列出一组数据,画一条线,它会自动求和;写下方程式,它可以自动生成图表。

通过这次演示,苹果不仅再次展示了他们对于一款好软件的标准,也展示了他们对于AI应用的理解——不是独立的产品(Siri除外),而只是作为功能集成到具体的使用场景中。

一、面向用户的AI体验:从新的Siri到图片的生成,简单有用更重要。

在WWDC主题演讲的第65分钟,在十几个演讲者几次提到机器学习之后,苹果终于拿出了苹果智能,它称之为个人智能系统。在进一步解释这个系统如何工作之前,苹果公司首席执行官蒂姆·库克(Tim Cook)提出了开发这个系统的五个原则:

接下来的30分钟,苹果介绍了苹果智能如何在iPhone、iPad、Mac三个硬件平台上从操作系统渗透到各种应用中。

大器晚成是什么意思

1.新Siri:看数据,明白自己在说什么。

用户现在每天向Siri发出15亿次请求。这是一个令人尴尬的数字,意味着平均每个人每天只能对Siri说不到两句话。从2011年发布至今,它从来都不是一个合格的智能助手。

Siri不够智能是因为它的底层技术很大程度上是基于规则的,用关键词筛选用户的需求,遇到无法理解的问题直接显示一个网页。现在在大模型的帮助下,Siri可以更准确地理解用户的问题,也可以“阅读”用户的iPhone界面,记住之前提到的内容,更好地处理用户的需求。

不仅可以回答iPhone、iPad、Mac上如何进行操作的上千个问题,比如切换到黑暗模式,还可以在苹果和第三方开发的应用中进行上百个操作,比如“把周六烧烤的照片发给XXX”;甚至可以自动搜索邮件、照片、短信中的信息来回答问题,比如“播放XXX推荐的播客”“XXX推荐的书单是什么”。

Siri从图片、信息和电子邮件等应用程序中搜索图片和特定信息。

OpenAI的ChatGPT也已经集成到Siri中。如果遇到复杂的问题,比如“用三文鱼、柠檬、番茄烹饪五种不同口味的菜肴”,Siri会提示用户是否使用ChatGPT来回答问题。ChatGPT默认使用OpenAI发布的最新GPT-4o型号。

2.写作工具:嵌入所有应用,只是助手。ai寻人技术

苹果将在iOS 18、iPadOS 18和macOS Sequoia中内置大型模型驱动的写作工具,覆盖几乎所有涉及文本输入的原生和三方应用,如邮件和备忘录等。用户可以用它对原文进行改写、润色和校对,但不能通过空-生成内容,除非调用ChatGPT。

3.总结:深入系统,梳理各种信息。

吸奶器排行榜前十名百度百科

第一种是对长篇邮件、文字或网页进行总结,第二种是根据用户的描述自动选择图片,制作成带有背景音乐的记忆视频,并转录和显示包括总回忆在内的录音文件。没错,苹果终于解决了一个老问题——支持全面召回——而且方案也很像苹果:当用户打开录音时,会自动提醒对方。

这里所说的“总结”并不局限于具体的应用,还包括对每天的群发通知推送进行整理,将系统认为对用户最重要的信息放在显眼的位置。

4.生成图片:操作直观,但效果堪忧。

只支持动画、插画、线描,一眼就能看出不是真实场景。苹果设想其主要使用场景是在与人聊天和做笔记时生成插图。苹果更强调可用性。比如在笔记类应用中生成图片时,大模型会默认将周围的文字理解为提示,生成符合上下文的图片。

苹果本地大模型根据页面上的照片和文字信息生成的“超人妈妈”图片。

2018年,苹果推出了通过捏脸制作表情包的Memoji。这次加入了Genmoji,根据文字叙述和照片生成表情符号。与六年前的Memoji相比,Genmoji更容易制作,但风格不再统一,也少了一点敏捷,更像是你打开QQ就会看到的选项。

上图是苹果最新的Genmoji功能生成的表情,下图是苹果2018年发布的Memoji功能“压榨”的表情。

单就功能而言,苹果智能现在能做到的,并没有超出其他大型机型的能力。苹果的优势在于多应用多设备场景的整合,无缝体验,以及基于设备中的个人信息理解用户指令并输出解决方案。

据苹果公司称,在理解深度个人场景的同时,苹果智能还将保护用户的隐私,例如在设备端处理任务。当网络用于处理需要更多处理能力的请求时,它将包含在私有云计算中。

它还在开发各种API,以允许第三方开发者访问这个高度集成的系统。这是比较传统的做法。老对手微软计划每五秒拦截一次屏幕,以“记住”用户在过去三个月中在设备上使用过的程序和内容。

据库克透露,今年夏天,苹果将开始测试美式英语版本的大模型功能,秋季上线,一年后支持其他语言版本。

第二,从局部部署到调用GPT-4o,把大模型分成三层。

为了实现库克提到的五个核心选择,苹果设计了三层大模型架构,只有在最后一步才会调用OpenAI的ChatGPT:

1.手机,电脑本地计算,小型号,不联网。

苹果在处理AI工作时,会优先考虑设备内置的大模型,用自己的芯片完成计算。这样数据完全留在本地,可以保证用户的隐私。也可以节省大模型的使用成本,不需要上传到数据中心进行计算。

代价就是很多苹果用户的手机不支持苹果智能。目前的硬件要求是A17 Pro(手机)或者M系列芯片(平板和电脑)。电脑平板都可以,三四年的产品大部分都可以用。不过手机目前只有iPhone 15 Pro和15 Pro Max。

关键变量是芯片的内存和AI计算能力,直接决定了大型模型的运行效率。与iPhone 14 Pro和iPhone 15/15 Plus的A16芯片相比,A17 Pro的AI计算能力(神经引擎)从17 TOPS增加了一倍,达到35 TOPS,内存容量也从6 GB升级到8 GB,可以让大机型实时访问和读取更多数据。

虽然苹果在过去的一年里投入了更多的资源用于效果更强、参数更小的大型机型的研发,但它无法在兼顾设备寿命和效率的同时,让本地运行的大型机型完美处理其设想的所有功能。它只能在云中部署具有较大参数的模型。

“传统的云服务器会存储你的数据,并在你没有意识到的情况下,以你不想要的方式使用它。而且你无法核实那些声称没有滥用你的数据的公司是否在说真话。”苹果软件工程高级副总裁克雷格·费德里吉(Craig federighi)说。

2.私有云计算,苹果自建数据中心,数据不在线。

苹果的选择是自建数据中心进行私有云计算。据多家媒体报道,苹果为Mac Pro台式机设计的M2 Ultra芯片为这个数据中心提供了计算能力。

Apple Intelligence会自动分析用户的请求是否可以在本地运行。如果需要更多的计算能力,就会调用私有云计算,只把与任务相关的数据送到云端处理,并强调不会存储数据,即使是苹果自己。我看不到这些数据。

除了确保隐私,苹果还可以通过用自主研发的M2超建立数据中心来节省成本。它不必花昂贵的钱从英伟达购买成品或寻找博通定制芯片。据Semi分析,一台M2 Ultra(2 * M2 Max+InFO-L包+192 GB LPDDR)的成本约为2000美元,不到一台英伟达H100的1/10。M2超能一次处理4-6个用户调用700亿参数的Llama 3的请求,大概率能更高效地运行苹果自研大模型。苹果尚未公布其部署在云端的大模型的参数,但在今年3月发布的自研大模型论文中,训练的最大模型只有300亿个参数。

但毕竟,M2超是为计算机设计的芯片。即使与其他计算机芯片相比,它具有很强的性能优势,但在数据中心使用时,它的缺点仍然很明显。受限于芯片架构,无法像NVIDIA GPU那样通过大规模并行连接大幅提升性能,因此无法运行数千亿参数或更大的模型来满足用户需求。

3.Siri接入第三方大模型,从OpenAI开始。

苹果很难(也没有必要)在短时间内做出性能赶超GPT-4o的大机型,于是有了第三个大机型:OpenAI的GPT-4o。根据苹果的演示,GPT-4o嵌入了Siri和大模型编写功能。

当Siri认为某个问题需要GPT-4o提供更好的答案时,就会弹出一个对话框。用户点击确定后,会发送问题、图片或文档等信息,然后直接显示回复,不会跳转到ChatGPT应用。

嵌入写作功能的GPT-4o需要用户主动调用,可以从零开始编故事,生成相应的图片。整个过程中,用户不需要创建新的OpenAI账号,也不需要下载或打开ChatGPT。用户过去发送的数据和请求不会被OpenAI存储,也不需要付费(只有GPT-4o的免费功能)。如果使用OpenAI账号,可以关联使用ChatGPT的支付功能,苹果设备中处理的问题也会同步。

ChatGPT不会是唯一的选择。克雷格·费德里吉(Craig federighi)表示,苹果未来还会推出其他大机型。

第三,新技术,旧业务

当所有的科技巨头都投资大模型的时候,苹果智能就是苹果的答案。

大会上演示的所有功能都是免费提供的。软件公司和互联网公司在做AI产品时需要算好账,考虑如何赚取收入。苹果没有这些顾虑。只要体验保持领先,超过10亿用户持续购买其昂贵的产品,成本不是问题。

这次苹果没有提出任何全新的大模型功能,从演示中也看不出苹果自制大模型的性能。光是图像生成可能还不如你现在能用的很多大模型。苹果更多的工作是花在把大模型拆解成功能,嵌入到苹果生态系统中,供软件开发者使用。

苹果做AI还不晚。它在7年前发布了核心的ML框架,引入了AI——拍照时——用户按下快门,iPhone拍了几百张照片,然后用芯片计算为用户合成最优解。但苹果要做大机型显然已经晚了。Chatgpt在2022年底推出后的反响超过了所有科技巨头,包括OpenAI自己的预期。苹果是所有大科技公司中最难快速反应的。

迟到本身不是问题。苹果从来不是第一个发明任何新类别的公司。第一台个人电脑,第一部智能手机,第一个无线耳机,都与苹果无关。但它总能抓住新技术向大众传播的节点,找到正确的产品形态,然后以非凡的工程能力打磨出最吸引人的产品,让一种新的计算机形态被大众接受。苹果电脑、iPod、iPhone、AirPods………苹果一次又一次用超级产品加速技术普及,拿走一个行业的主要利润,成为市值3万亿美元的公司。

苹果在推广新技术方面处于一个绝佳的位置:在全球80亿人口中,超过10亿人使用iPhone,其中数亿人使用苹果的耳机、扬声器和个人电脑,每年在苹果的互联网服务上花费近1000亿美元。这家同时掌控软硬件和互联网服务生态的公司,可以在几个月内让一项技术24×7出现在大多数用户面前。如果出了问题,影响太大了。

苹果的优势和劣势来自于它的规模和用户的信任。没有其他公司能以这种方式整合软件、硬件和服务。但它传播技术越快,就越难承受重大失败。苹果智能显然在安全性上做了很多限制,无论是限制图像生成的类型,还是用自己的处理器构建私有云计算。

一项快速发展的技术需要反复试验才能发展。如果未来AI大模型没有大的突破,下一步就是降低成本,打磨应用场景。苹果iPhone+AirPods的生态几乎不可撼动。但如果GPT-4只是开始,苹果的问题才刚刚开始。

未经允许不得转载:科技让生活更美好 » 苹果的AI大模型冲刺:新技术,旧生意