苹果AI“图穷匕见”:将大模型塞进iPhone里

文|石岛

《教父》电影里有一句话:“永远不要让外人知道你想做什么”,这句话似乎适用于苹果在2023年前11个月的AI表现。

今年5月,外媒报道称,苹果公司担心ChatGPT和Copilot等AI工具收集机密数据,并禁止员工在工作中使用。

今年6月,在苹果全球开发者大会上,库克甚至没有提到AI,而是换成了ML。

但如果苹果不关心AI,显然是不可能的。毕竟,早在2010年,苹果就以2亿美元收购了Siri团队。虽然这么多年过去了,还是那么“弱智”。

今年7月,彭博报道称,苹果内部开发了自己的AI框架Ajax和聊天机器人AppleGPT。Ajax基于Google Jax,而AppleGPT类似于ChatGPT。但是,这两者似乎并没有创新。

今年10月,苹果生产了Ferret,这是一个开源的多模态模型,有70亿和130亿个参数版本。但因为目前只对研究机构开放,所以并没有激起什么波澜。

同样在10月,彭博报道称,苹果非常“焦虑”,并启动了一项巨大的追赶计划。该计划由机器学习和人工智能负责人John Giannandrea和Craig Federighi领导,服务部高级副总裁Eddy Cue也参与其中,每年的预算为10亿美元。

讽刺的是,早在2020年,John Giannandrea在接受采访时就肯定了苹果的AI战略,并表示苹果不会过多谈论其AI能力。

是否不能说太多。总之,太多的谣言已经吊足了大家的胃口。

虽然你可以说作为一家硬件公司,苹果今年至少发布了Vision Pro,其中数字头像、场景、动作识别等功能都与AI技术有关。

但骄傲止步于11月的爱拼屏幕。半个烟盒大小的“领夹”,仅通过“听”和“看”就能了解用户需求,并用AI软件执行任务,被一些人视为“天生的iPhone杀手”。更重要的是,AI Pin背后的金爹包括微软、OpenAI等一系列让苹果“焦虑”的对象。

眼看狼群要四面包抄,苹果终于在2023年底发布了两篇论文。小米平板推荐哪款

其中一篇题为“LLM in a flash:高效的大语言模型影响力与有限的内存”的论文提出,苹果通过一项创新的flash利用技术,成功地将LLM部署在iPhone和其他内存有限的苹果设备上,这一成果有望使更强大的Siri、实时语言翻译和集成了摄影和AR的前沿AI功能在未来的iPhone上落地。

2024年,这种“大机型+硬件”的路线可能会直接改变竞争格局。

打破记忆墙,把大模型放在闪存里。

先放数据结论。论文表明,在Flash-LLM技术的加持下,两个关键领域得到了优化:1 .减少闪存传输的数据量;2.读取更大、更连续的数据块。

优化后,设备可支持的型号大小是其自带DRAM的两倍。LLM的推理速度在苹果M1 Max CPU上提高了4-5倍,在GPU上提高了20-25倍。烟盒手机壳好评评语

Flash-LLM是怎么做到的?采用了两种主要技术:

首先,窗口技术通过重用先前激活的神经元,战略性地减少了数据传输。从存储器(闪存)到处理器(DRAM)的数据传输大大减少。

其次,行列捆绑技术是根据闪存时序数据的访问强度量身定制的,增加了从闪存中读取的数据块的大小,改变了数据的存储方式。

比如我们亏了几个亿,如何投资AI项目?看看《欧洲老牌风险投资指数如何押注》中引用的“图书馆”的例子。

假设你去图书馆找书,书单上有20本书,但这个图书馆就像英剧黑皮书一样,书堆得乱七八糟。你几乎要从头到尾找到你要找的所有书。

想象一下,当你在找一本书的时候,你需要用大脑检查你的眼睛。按照常理,你每次看到一本书,都不会从书单上找对应的。因为你的大脑已经“闪现”了“关键书名”。

你要做的就是从当前视线范围内找到书单上的书。

开窗技术就是这种情况,相当于先用一种算法细化LLM的权矩阵,只保留一些重要的元素,从而减少计算量,提高计算效率。

同时,因为你要找的总共是20本书,你不能像熊一样把玉米掰了再扔掉一本,所以你需要一辆手推车。行列捆绑技术就是这个小车,帮助从闪存中一次读取的数据块更大,也提高了数据读取效率。

速度和尺寸的双重突破可能很快就会让大机型在iPhone、iPad等移动设备上流畅运行。

虽然该方法也有一定的局限性,包括主要针对文本生成任务,但其对其他类型任务的适用性有待进一步验证,处理超大规模模型的能力有限。

02迎接Vision Pro上市,30分钟生成“两部数码人”。

第二篇论文《拥抱:人类高斯Splats》没有上一篇那么惊艳,但也足以让人眼前一亮。

本文详细介绍了一种生成式人工智能技术HUGS(HUGS)。苹果研究人员、《拥抱》作者之一阿努拉格·兰詹(Anurag Ranjan)表示,拥抱只需要一个大约50-100帧的原始视频,相当于2到4秒的24fps视频,30分钟就可以生成一个“数字头像”。

据悉,这比包括NeuMan和Vid2Avatar在内的其他方法快了约100倍。

从Ranjan在X上发布的视频来看,画面右侧的三个身影正在草坪上欢快地跳舞,相当神奇。

苹果表示,虽然目前的神经渲染技术与早期相比有了显著进步,但它仍然最适合在静态场景而非动态场景中自由移动的人类。

休斯基于3DGS(3D Gaussian Splatting)和SMPL人体模型技术创建了一个数字化身。当然,HUGS技术目前还不能捕捉到每一个细节,但是HUGS会自动填充无法捕捉和建模的细节元素。

而三维虚拟数字人是VR头显进一步发展的必然要求。

例如,去年Meta发布了编解码器《阿凡达》2.0版本,比1.0进一步完成了逼真的数字人类效果。

今年,苹果发布了Vision Pro,它可以通过前置摄像头扫描用户的面部信息,并基于机器学习和编码神经网络为用户生成数字头像。当用户使用FaceTime进行通话时,数字化身可以动态模仿用户的面部和手部动作,并保留数字化身的体量感和深度感。

据彭博透露,苹果正在为Vision Pro的上市做最后的准备,预计发布会提前到2024年1月底。

据苹果高级分析师马克·古尔曼预测,2024年,苹果的精力将集中在可穿戴产品(Vision Pro、AirPods、Apple Watch)上,一直占据大头的iPhone将会让位。

这篇论文可能是为Vision Pro上市做准备。

03结论

据集邦咨询统计,2018年以来,苹果已经悄然收购了20多家AI公司,只有少数几家披露了交易价格。

换句话说,当你以为苹果终于慢了的时候,大佬在观察,在努力,在悄悄布局生态,然后突然像之前无数次一样一鸣惊人,惊艳了所有人。

更可怕的是,苹果的“落后一步”似乎是在“以退为进”,有两个信息值得注意。

1.外媒报道,近日,苹果公司正在讨论一项“价值至少5000万美元的多年合作协议”,并联系了康泰纳仕、NBC News、IAC等媒体,以获得其过往新闻文章的使用授权。

与其他科技公司拿数据直接训练不同,苹果在拿数据进行训练之前,先获得授权。

这让人联想到《纽约时报》最近指责OpenAI和微软未经授权使用《纽约时报》内容训练人工智能模型。这起案件可能是人工智能使用知识产权纠纷的分水岭。

同样还有最近的中旅V6的版权麻烦——用人类创作者的作品做AI训练合法吗?司法如何保护创作者的权益?

2.在“谈AI的安全性”的大气候下,今年10月,苹果供应链海通国际证券分析师Jeff Pu发布报告显示,2023年苹果可能已经建成了数百台AI服务器,2024年这一数字还将大幅增加。

他认为,苹果在推出生成式人工智能之前仔细考虑了如何使用和处理个人数据,以满足其对客户隐私的承诺。

换句话说,苹果的“慢半拍”似乎是在思考如何在尊重客户隐私的情况下使用和处理个人数据。在没有完美的解决方案之前,苹果总是小心翼翼。

此外,杰夫·普(Jeff Pu)在报告中指出,苹果计划最早于2024年底在iPhone和iPad上实现生成式人工智能技术。如果计划实现,2024年底的时间表将意味着苹果可能从iOS 18和iPadOS 18推出生成式人工智能功能。

至此,这两篇论文的发布似乎开启了苹果王者归来的时钟。2024年,人工智能赛道将更加精彩。

魅族mx4pro白色

未经允许不得转载:科技让生活更美好 » 苹果AI“图穷匕见”:将大模型塞进iPhone里