未来的杀手级AI应用,正在扣子上匿名PK

大模特已经火了两年了。现在的大模型江湖是什么样子的?

摊开全球画卷,OpenAI在通用大模型领域依然一骑绝尘,但整个生态百花齐放——擅长长文的Claude,开源新秀Mistral的Llama,绘图之王MidJourney…

评价大模型的第一要义是什么?参数,规模,价格,排名?好像还不够。对于千千成千上万的企业和用户来说,最关心的话题可能就是能在人们的生活和工作中脚踏实地地使用大模型,而且稳定无错。

对于今天的大模型领域,我们必须再次搬出老程序员的那句话:空谈不值钱,给我看代码。

用它,它才是王道。

现在,当你打开字节跳动的AI“按钮”平台时,你可以看到数百个机器人正在参加一场激烈的PK。

自2024年2月1日上线以来,该按钮已接入国内多家知名大语言模型,包括豆宝、依桐钱文、知乎、MiniMax、Moonshot、百川等——就像琳琅满目的大型号“货架”,无论哪个大型号,小、中、大,应有尽有。

无论是学英语、编程、文案、算命,民间精英在这些模型上开发的应用可以说是五花八门。但是在这些场景下如何才能用的最好呢?

按钮模型广场简单而直接地提供了一个比较评估的平台。

如果你是小红书博主,可以直接打开按钮里的小红书副本生成器,携带两个不同的大模型,实时测试对比。

两个bot都使用了相同的提示和插件,但是在实时测试中,效果对比一目了然,无论是响应速度还是返回的内容。

就像游戏一样,按钮模型广场提供了许多有趣的玩法,包括指定Bot、随机Bot和纯模型。

比如随机对战,系统会随机选择一个Bot进行模式对战。这适用于评估模型在任何业务场景下的文本生成、技能和知识传递能力——这两个模型——PK都是匿名的,它们基于Bot的提示、工作流、知识库等能力来回答用户的问题。

PK让流程对用户完全开放。前来观光的用户可以通过模型对战与两个隐藏模型的机器人进行实时对话,并根据模型的回答进行投票。投票结束后,广场将揭晓具体型号。商品库存软件

PK不只是看用户投票。结果发布后,用户可以展开结果页面查看两个模型的详细配置,包括代多样性、代随机性等配置参数。

从2022年底ChatGPT的爆发,到黑脸田鸡、中旅等多模态模型的骄人成绩,再到按钮模型广场的推出,无疑是大模型生态成熟后对应用层的一次“试探”——人们不再讨论数字,而开始考虑是否可用。纵观整个AI领域的发展,这也是大模型新技术走向to C的重要一步。

01.大模型爆炸两年后:那么近,那么远。

回顾人类科技史,大概很少有哪项技术像大模型一样,以暴风骤雨般的速度让全社会达成共识:这是一项能有效提高生产力、改变未来的新技术。

从ChatGPT后面的GPT-3.5到GPT-4和最新的GPT-4o,一般的大型号这两年经历了过山车式的发展速度。大模型和芯片厂商还在一起细化模型,试图探索标度律的极限(标度律,不断扩大参数规模和数据量,可以获得更强的模型能力)。仅以参数衡量,GPT-3.5的参数是1760亿,还是闭源模型;到今年,人们可以使用的最先进的开源模型Llama 3已经有超过4000亿个参数。

更大量的参数和数据,就像土壤一样,是模型能力的基础,但在土壤上能长出什么样的应用——苔藓还是参天大树——考验着模型有多聪明。

拥有数千亿个参数的模型可以展示技术的前沿,如今的模型创新者正在努力让模型变得更小。这相当于对模型进行“提炼”,让更小的模型拥有更强大的性能。2023年9月发布的mistral 7B(70亿参数)是小模型派的代表,能以130亿参数击败Llama 2模型。捉妖记豆瓣

到2024年,“小模特”的趋势更是势不可挡。Meta旗下的Llama 3发布后,其80亿模型(8B)的性能甚至强于上一代LLAMA270亿参数模型,因此在文本、数学和编程方面的能力都大大增强。

原因是Llama 3“学习”的数据密度足够丰富——使用了15万亿Token训练数据,是Google旗下Gemini的同等型号的两倍多。

但尽管如此,一个现实是,目前的大模型仍然面临着“隔岸观火”的尴尬局面:在开发者圈子里,模型日新月异,性能更强,用例越来越耀眼;但另一边,却是普通用户“眼红”,对如何使用大机型感到困惑。

事实上,大模型离人们的工作和日常生活很远。数据证实了这一点——麻省理工学院的一项研究表明,在计算机视觉(CV)领域,今天可以自动化的工作占美国经济(不包括农业)中工人工资的1.6%,但只有23%的工资任务(占整个经济的0.4%)通过自动化更具成本效益。AI在今天人类工作流程中的比例还是很小的。

对于普通C端用户来说,AI应用更多的是“一轮游”。这两年热门的AI应用,在迎来大量试用和试用用户后,真正留下来的日活和周活用户少之又少。真正的核心受众是专业开发者和垂直领域的专业人士(如设计师、运营人员、作家等)。

这一方面是因为底层一般大规模模型的能力需要不断提高,如今模型中的幻觉等可控性问题还没有得到很好的解决;另外,模型的记忆能力还处于比较小的阶段,无法真正记住用户的喜好、习惯等。,更复杂的交互是不可能的。

这就导致了今天各种AI应用可以落地的地方,集中在容错性高的创意场景,比如写文案、画图、对话等。,或者基于语言模型的简单游戏。

更重要的是,交互层面的门槛还处于较高水平——与大型模型的对话深度有限,用户需要研究如何写提示,数据训练也有较大的理解门槛。企业用户既想用大型号,又想跨越选型微调的工作。

一句话:大模型还是有很难理解和应用成本的。

所以到了辅助决策类——企业核心工作流,大模型实际上是达不到可用状态的。例如,根据数据分析厂商《数据九章》的统计,在数据分析场景下,用大型模型生成SQL(结构化查询语言,数据库的核心语言)的准确率在70%左右,但剩下的30%仍然需要专家人工检查,这就失去了用AI提高效率的意义。

大模型和用户端,现在就像渐近线一样,需要找到一个能够匹配技术和场景的地方,让用户真正“用得上”。在刚刚结束的“AI春晚”致远发布会上,致远研究院院长王中原表示:“国产大模型已经开始无限逼近GPT四号,这意味着基础模型已经达到可用状态,但当达到可用状态后,开始赋能千万行业,进入所有垂直领域,需要找到更好的产业生态和合作模式。”

02.AI应用,爆发前夜

很多人会把大模式的爆发比作移动互联网这样的历史机遇。这样,很多人的记忆就能在瞬间被唤醒——如今层出不穷的AI应用,和移动互联网时代的应用如出一辙。

如果参照历史规律,从个人电脑带来的PC互联网时代到移动互联网时代,每次技术革新之后到大量应用的出现,差不多需要2-3年的时间。2007年,苹果推出了iPhone 1,它定义了移动互联网时代的交互形式。直到两年后,优步、Whatsapp、Instagram等产品依次出现,成为席卷全球的应用。索爱k790刚上市价格

这期间发生了什么?底层技术变革不断,成本不断降低到可以商业化的水平,可以出现大量的应用创新。这将进一步倒逼基础设施——云计算、大数据等行业的转型。正是因为大量移动终端的增加,人们上网的时间更多了。

今天的AI领域也正处于技术创新到应用繁荣的临界点。

随着大型模型技术的创新,应用创新逐渐燎原。2023年,GPT-4发布后,OpenAI立即在11月推出了GPTs商店。开发人员可以用一个简单的外壳立即制作各种应用程序。短短两个月,办公、设计、生活、教育、科研、编程等领域的GPT已经超过300万,如雨后春笋。

在最近的WWDC大会上,苹果正式宣布了与OpenAI的合作——将ChatGPT集成到iPhone、iPad和Mac设备中——就像App Store的重新崛起一样。

根据Gartner的技术成熟度曲线,目前大模型领域无论是AI(生成式AI)还是基础模型都处于扩张高峰期,再往下就是应用爆发期。

来源:Gartner

然而,仍有许多工作要做。大规模模型技术浪潮爆发后,从底层芯片到中间层的Infra架构出现了一轮密集而快速的变化:GPU芯片需要加强推理效率,而软件中间层需要承担大规模模型的大规模推理和应用需求,降低算法层面的调用成本。

AI的难点在于大模型本身的技术复杂性,而在终端设备、大模型等“平台级”基础设施与前端应用之间,“送水人”的力量——如“纽扣”等AI应用开发平台,现在就在发挥这样的作用,让大模型的能力顺利输送到使用场景。

举个例子,对于一个0编程经验的用户来说,现在开发AI应用几乎是不可能的——与“按钮”的交互只有一句话那么短。

至于用什么模型,怎么用,不需要知道难懂的专业术语就能理解模型的性能几何。“按钮”家用机器人就像一个老师握着你的手。Button可以给出相应的建议,如何使用模型,平台上有哪些现成的bot。

在开发过程中,“按钮”现在就像一个开箱即用的工作台,为用户提供了丰富的组件选择——插件、工作流、图像流、触发器等等。这样用户的开发就不再局限于简单的shell应用,而是可以通过联动api、打包模块等完成复杂任务的执行。

自去年年底上线以来,“按钮”平台上出现了许多有趣的用例。比如,一位汽车爱好者为了回答身边很多朋友的选车问题,利用“按钮”的工作流功能,增加了五个节点,最终实现了根据用户需求进行车型搜索和参数对比,最终输出图文并茂的购车建议。

5月15日,在火山发动机的FORCE原动力大会上,展示了一个案例。一个五年级的学生开发了一个名为“青蛙外教”的代理,分享给同学朋友。

从某种意义上来说,“Button”等AI应用开发平台最重要的意义在于将原有AI应用所覆盖的开发者群体扩展到所有主流用户。当大模型本身无法解决端到端的问题时,就要调动大家的力量去开发各种应用,这样才能加速大模型生态的发展。

“模型方阵”这样的PK形式向市场传递了一个有价值的信号:对于大模型这样强调“因地制宜”、善于解决智力密集型需求的技术,一味的刷榜、拼参数是没有意义的。无论是模型制造商还是开发者,都应该关注每一个应用场景——只有设身处地为用户着想,才能真正找到现阶段的PMF(产品市场契合度)。

03.等待下一个黑仔应用程序

如果把国内大模火热的两年划分为演进过程:前半段大家都在焦虑大模什么时候能赶上GPT-3.5,从2023年下半年开始,话题突然变成:超级应用什么时候来?

这种讨论在2024年上半年达到顶峰。市场上有两种完全不同的态度——很多开发者认为,随着模型规模的扩大和智能化水平的提高,应用能力自然会发展,所以需要把精力和资源集中在底层的大模型上;另一方面更现实——做大模型太贵,试错成本太高。有投资人认为最好的办法是“尽快拿下”,寻找可以马上商业化的场景。

两种态度聚焦的问题都是AI应用。

最近大模圈的很多动作都在加速AI应用的落地进程。就在5月,大模型领域刚刚迎来了一场风暴般的降价潮——主流大模型厂商,包括智普、Deepseek、豆宝、阿里、腾讯、科大讯飞,都宣布了一轮模型降价。

以字节跳动旗下的火山引擎为例。5月份豆包大模型矩阵集体降价。现在企业市场的豆腐脑主力型号价格已经降到0.0008元/1000代币,比行业价格低99.3%。相当于用户可以用一元钱搞定三本三国演义。

虽然有市场竞争的考虑把机型价格打到地板价,但核心重点其实是扩大开发者群体——开发AI应用的试错成本太高,导致长期以来真正尝试做AI应用的人太少。但车型降价后,可能只需要100元或1000元就能开发出一款车型。在过去,对AI应用程序开发的担忧不再是问题。

反过来,AI应用供给的增加,受众的扩大,也会反过来反馈到模型的开发上。“用户规模的扩大也会提升大模型的性能。”火山发动机总裁谭岱说。只有大量使用模型,才能打磨出好的模型,大大降低模型推理的单位成本。

类似的“好信号”还有很多。2024年,多模态机型的进步同样喜人——无论是国外的黑脸田鸡、GPT-4o,还是国内近期爆红的Dreamina、凌克等多模态机型,用户对视频、图像应用的兴趣已经被彻底点燃。破AI变脸,AI翻译,虚拟人跳舞的玩法越来越多。这背后,离不开多模态的技术突破、模型推理成本的降低和中间层的逐步完善。

相应的,目前的“按钮”平台也已经匹配了AI技术普及的步伐。在最近的更新中,Button已经开始支持重要内容作为关键变量和数据库的存储——相当于给Bot插了一个内存模块。在交互体验方面,“按钮”还支持配置开场白、用户问题建议、快捷说明、背景图片、语音等。,还支持卡片格式输出表单。

简单来说,如果用户想开发一个可以像真人一样翻译和说话的虚拟人,操作已经很简单了——通过在按钮上选择合适的通用模型,就可以简单地训练出一个会说话的AI助手,交互非常真实。而且,“按钮”可以直接将构建好的Bot发布到舒菲、微信等平台,无缝嵌入到各种生产力工具中。

可以预见的是,随着AI应用落地门槛的进一步降低,新一轮的市场竞争将迅速展开。这将使市场跨越这个“应用真相空”的尴尬时期——只有将AI真正融入到每个人都能感知和使用的产品中,才能消除许多焦虑、矛盾或令人不安的未知。

目前,程序员群体的老话或许应该改成:空谈不值钱,给我看看CozeBot。

未经允许不得转载:科技让生活更美好 » 未来的杀手级AI应用,正在扣子上匿名PK