Gemini vs GPT，谁输谁赢？-科技让生活更美好

Gemini(英文名Gemini)推出，除了国内媒体头条的各种“王者轰炸”、“杀手”、“碾压”之外，其实很难唤起人们曾经熟悉的魔幻感和惊人的效果。

和其他人一样，我首先关心的是，它能超过GPT-4吗？

昨天看到双子座发布的消息。我做的第一件事就是把双子座测试的表格直接上传到Bard。它确实能详细准确地解释图表。如果与GPT-4相比，明年初推出的Gemini Ultra算是赢家，已经推出的Gemini Pro就逊色了，它们各自在各项指标上的表现如下:

但是，和很多熟悉河湖大型模型评估的专家一样，我也想问，这些评估有多大价值？

比如最受关注的是所谓的双子座对语言的理解第一次达到(而不是超过)人类专家的水平，而这一项学术霸权的90分是未公开的双子座Ultra“碾压”GPT-4的最重要依据。

但这一说法很快引起了一些争议，认为MMLU被人为夸大了。CoT(思维链)达到32个例子，双子座才能达到90分，超过GPT-4；当实例数量减少到5个时，Gemini Ultra的得分为83.7%，不及GPT-4的86.4%，高于GPT-3.5的70%。

除湿机原理跟空调差异

谷歌在5月份发布Palm-2的时候，也挑出了两个比GPT-4更好的指标，但后来这个大型号是什么样子大家都清楚。

在双子发布的轩然大波中，值得注意的是Google Cloud发布了TPUv5p，将大模型的训练效率提高了2倍以上。不管双子座是否碾压了GPT-4，有一点是肯定的:谷歌拥有比微软更强大的大规模模型训练和推理平台。谷歌研究主管杰夫·迪恩(Jeff Dean)特意从技术报告中抽出了这些亮点:

普遍认为双子座已经赶上了GPT-4，其多模态能力甚至超过了GPT-4V。Meta公司PyTorch的联合创始人Soumich Chintala认为:

Gemini将成为未来谷歌所有产品和服务的基础模型。从技术报告中可以看出，这个大模型的开发是由Google DeepMind主导的，几乎所有的R&D主要部门、基础设施部门和数据内容部门都参与其中。后面列出了约800名贡献者的名单，相当于目前OpenAI公司的数量。

今年3月GPT-4发布后，谷歌迅速合并了DeepMInd和谷歌大脑，由哈萨比斯担任首席执行官，其主要任务是率先开发多模态大型模型双子座。

谷歌拥有最大的AI人才库，包括《变形金刚》论文在内的几乎所有最重要的研究成果都来自谷歌。谷歌还拥有最强的AI基础设施、最大的数据库、最强的搜索和最丰富的应用场景。哈萨比斯的愿景也是实现通用人工智能。谷歌没有理由继续追赶OpenAI。

许多人认为谷歌行动缓慢是因为大公司生病了。这肯定是一个原因，也导致了今年谷歌的人才流失。

还有一个重要原因。作为一个已经拥有AI全栈技术和顶级应用的科技巨头，谷歌的行为肯定与创业公司OpenAI不同。

谷歌仍然非常重视搜索。它不想用大语言模型颠覆搜索，而是用它来加强搜索，谷歌称之为生成式搜索。它还需要考虑生成搜索的成本。大模型的每次查询成本已经大大降低了，但还是比搜索的每次查询贵。谷歌必须考虑的是，每年向全球数十亿用户提供数万亿次免费搜索的成本。

3050显卡什么时候上市

所以对于谷歌来说，它的AI计算基础设施非常重要。它希望降低训练、推理、能耗等成本。，不仅要支持生成式搜索，还要支持其他服务，包括硬件服务。

谷歌此次推出两款针对Pixel手机的Nano机型，将进一步推动生成式人工智能向设备端的部署。同一天，苹果悄悄公布了基于M芯片的大型模型训练和部署框架MLX，Mac笔记本电脑将更加面向AI。

谷歌推出双子星还来得及吗？似乎还不算太晚。正如哈萨比斯所说，Gemini发布后，他在DeepMind又回到了自己熟悉的节奏，会快速迭代出更好的产品，从1.0版本到2.0版本。

双十一成交额再创纪录

双子星的发射给克劳德带来新的压力，影响力，还有开源的Llama2，会传到中国。目前国内最好的大车型综合水平基本在GPT-3.5。2024年，大模型的竞争可能会形成一个真正的双子座:GPT 5号和双子座1号。

Gemini vs GPT，谁输谁赢？