Gemini vs GPT,谁输谁赢?

Gemini(英文名Gemini)推出,除了国内媒体头条的各种“王者轰炸”、“杀手”、“碾压”之外,其实很难唤起人们曾经熟悉的魔幻感和惊人的效果。

和其他人一样,我首先关心的是,它能超过GPT-4吗?

昨天看到双子座发布的消息。我做的第一件事就是把双子座测试的表格直接上传到Bard。它确实能详细准确地解释图表。如果与GPT-4相比,明年初推出的Gemini Ultra算是赢家,已经推出的Gemini Pro就逊色了,它们各自在各项指标上的表现如下:

但是,和很多熟悉河湖大型模型评估的专家一样,我也想问,这些评估有多大价值?

比如最受关注的是所谓的双子座对语言的理解第一次达到(而不是超过)人类专家的水平,而这一项学术霸权的90分是未公开的双子座Ultra“碾压”GPT-4的最重要依据。

但这一说法很快引起了一些争议,认为MMLU被人为夸大了。CoT(思维链)达到32个例子,双子座才能达到90分,超过GPT-4;当实例数量减少到5个时,Gemini Ultra的得分为83.7%,不及GPT-4的86.4%,高于GPT-3.5的70%。

除湿机原理跟空调差异

谷歌在5月份发布Palm-2的时候,也挑出了两个比GPT-4更好的指标,但后来这个大型号是什么样子大家都清楚。

在双子发布的轩然大波中,值得注意的是Google Cloud发布了TPUv5p,将大模型的训练效率提高了2倍以上。不管双子座是否碾压了GPT-4,有一点是肯定的:谷歌拥有比微软更强大的大规模模型训练和推理平台。谷歌研究主管杰夫·迪恩(Jeff Dean)特意从技术报告中抽出了这些亮点:

普遍认为双子座已经赶上了GPT-4,其多模态能力甚至超过了GPT-4V。Meta公司PyTorch的联合创始人Soumich Chintala认为:

Gemini将成为未来谷歌所有产品和服务的基础模型。从技术报告中可以看出,这个大模型的开发是由Google DeepMind主导的,几乎所有的R&D主要部门、基础设施部门和数据内容部门都参与其中。后面列出了约800名贡献者的名单,相当于目前OpenAI公司的数量。

今年3月GPT-4发布后,谷歌迅速合并了DeepMInd和谷歌大脑,由哈萨比斯担任首席执行官,其主要任务是率先开发多模态大型模型双子座。

谷歌拥有最大的AI人才库,包括《变形金刚》论文在内的几乎所有最重要的研究成果都来自谷歌。谷歌还拥有最强的AI基础设施、最大的数据库、最强的搜索和最丰富的应用场景。哈萨比斯的愿景也是实现通用人工智能。谷歌没有理由继续追赶OpenAI。

许多人认为谷歌行动缓慢是因为大公司生病了。这肯定是一个原因,也导致了今年谷歌的人才流失。

还有一个重要原因。作为一个已经拥有AI全栈技术和顶级应用的科技巨头,谷歌的行为肯定与创业公司OpenAI不同。

谷歌仍然非常重视搜索。它不想用大语言模型颠覆搜索,而是用它来加强搜索,谷歌称之为生成式搜索。它还需要考虑生成搜索的成本。大模型的每次查询成本已经大大降低了,但还是比搜索的每次查询贵。谷歌必须考虑的是,每年向全球数十亿用户提供数万亿次免费搜索的成本。

3050显卡什么时候上市

所以对于谷歌来说,它的AI计算基础设施非常重要。它希望降低训练、推理、能耗等成本。,不仅要支持生成式搜索,还要支持其他服务,包括硬件服务。

谷歌此次推出两款针对Pixel手机的Nano机型,将进一步推动生成式人工智能向设备端的部署。同一天,苹果悄悄公布了基于M芯片的大型模型训练和部署框架MLX,Mac笔记本电脑将更加面向AI。

谷歌推出双子星还来得及吗?似乎还不算太晚。正如哈萨比斯所说,Gemini发布后,他在DeepMind又回到了自己熟悉的节奏,会快速迭代出更好的产品,从1.0版本到2.0版本。

双十一成交额再创纪录

双子星的发射给克劳德带来新的压力,影响力,还有开源的Llama2,会传到中国。目前国内最好的大车型综合水平基本在GPT-3.5。2024年,大模型的竞争可能会形成一个真正的双子座:GPT 5号和双子座1号。

未经允许不得转载:科技让生活更美好 » Gemini vs GPT,谁输谁赢?