谷歌Gemini刚发布就惹质疑：测试标准有失偏颇？-科技让生活更美好

Google憋了很久，双子模型终于发布了！其中，图1中的视频最引人注目:

一图，MMLU多任务语言理解数据集测试，Gemini Ultra不仅超越了GPT-4，甚至超越了人类专家。

一段视频，AI实时评论吐槽人类涂鸦和手势，流畅幽默，是最接近贾维斯的一集。

然而，当大家从惊讶中冷静下来，仔细阅读这份60页的技术报告时，却发现不对劲。

(对，没纸，OpenAI。你做了一个多么糟糕的开始。)

在MMLU测试中，双子座结果下的灰色小字命名为CoT@32，展开后代表使用了思维链提示技术，选出了32次最佳结果。

相比之下，GPT-4没有提示技术，只尝试了五次。在这个标准下，双子座超实际上不如GPT-4。

而且原图的比例有点不厚道，90.0%和人类基准的89.8%只差一点点，但是在Y轴上相差很远。

HuggingFace的技术总监菲利普·施密德(Philipp Schmid)用技术报告中披露的数据还原了这张图，让展示更加公正恰当:

每次这样，总是做表情包的哥哥就赶紧冲上战场:

中兴u232

然而，幸运的是，当使用相同的思维链提示技能和32次尝试的标准时，双子超级确实超过了GPT-4。

杰夫·迪恩在一次讨论中回应了这个问题，但大家并不买账。‍‍尼康d3100使用说明

机器学习讲师圣地亚哥·瓦尔达拉马(Santiago Valdarrama)认为，该说法可能暗示结果是经过精心挑选的，不是实时记录而是经过编辑的。

后来Google在一篇博文中解释了多模态交互过程，几乎承认使用静态图片和多重提示可以达到这样的效果。

但无论如何，谷歌双子星的发布给了其他团队极大的信心，GPT-4不再是独一无二、高不可攀的。

正如困惑AI的创始人Aravind Srinivas总结的那样:

更多网友关心的话题是，ChatGPT Plus有必要继续每月支付20美元吗？？

目前Gemini Pro的版本已经更新为谷歌聊天机器人Bard。水平是否有宣传的那么好，可以从实际情况来看。

双子座真的超越了ChatGPT吗？

首先，我们要明确一点。目前大家能玩的都是双子Pro版，也就是中杯，也就是基准的GPT-3.5。

配备标准GPT-4的大型双子座Ultra要到明年才会发布。

另外，目前双子只支持英文，中文等其他语言会在后面出来。

虽然暂时不能玩Gemini Ultra，但是威斯康星大学麦迪逊分校的副教授Dimitris Papailiopoulos找到了一个好办法:

双子座释放时显示的原始问题被送到GPT-4进行比较。结果，GPT-4在14个问题中得了大约12分。

有两个问题因为截图不能说清楚，所以给GPT-4打0.5分。

还有一道数学题GPT-4是错的，其他题基本打成平手。

接下来要说最能体现一个大型模型的综合能力，肯定是要写代码的。

根据你的测试结果，双子座的编程水平还是有保证的。

一些开发人员已经用Pytorch测试了一个简单的CNN网络的实现。双子座只需要2秒，代码质量更高。

当然，速度快可能是因为Bard搭载的Gemini Pro体积更小。我知道GPT 4号现在有多慢。

但是在下一个写SQL语句的方面，开发者认为Gemini不太好。

不过，对于开发者来说，还是有好消息的。按照说明来说，双子座和升级前的吟游诗人相比是史诗级的进步。

提醒工程师先锋Riley Goodside，他想让Bard输出纯JSON格式，前后没有任何废话，各种尝试都没有成功。最后，他需要假装威胁人工智能鲨鱼无辜的人，如果他不这样做。

现在更新后只需要说出需求，不需要任何提示技巧就可以做到。

双子座的另一个卖点是多模态能力。对于其发布的画小鸭视频，我们提取了八个关键帧，进行提问，看看双子座的表现有没有那么神奇。

(不确定视频是Ultra版还是Pro版，所以现在只能测试Pro版)

对于图1-4，我们问的问题是“这个人在做什么？”双子座给出的答案是:

对于图1和图2来说，确实判断线索不明显，这样的结果可以理解，但是图3中“乌龟”的答案有些捉襟见肘。

至于图4，至少可以确定鸭子确实属于鸟类，但其他细节还缺乏一些准确性。

当我们把图5中的成型作品拿出来的时候，双子最后分析出来是一只鸭子，水波纹也分析正确。

但是分析出来的绘画工具变成了铅笔，头部朝向的问题还是不对。据说鸟嘴是开着的，还想象了一些芦苇。

接下来是图6和图7中的着色过程。一般鸭子都不是蓝色的，所以我们问双子座图有什么异常(有什么异常吗？)。

对于图6，双子座给出的答案不能说非常准确。只能说驴唇不对马嘴，还配了一张不着边际的图。

对于图7的成品，双子座直接说没毛病，什么都有，背景很真实。她甚至不忘提到那些不知道从哪里来的芦苇。

但是下面这句“这是你发的图”真的是莫名其妙:

说双子没看我们上传的图，确实是鸭子；假设它被阅读，它给出了一个与我们上传的完全不同的图片。

于是我们想到了用“深呼吸”和“逐步解决”来看看能否提高Gemini的性能，其中深呼吸是适用于Google上一代机型PaLM的提示词。

结果这次的回答直接让人笑了:

视频最后，博主还拿出了一个橡皮鸭玩具。我们也拿了这个框架(图8)请双子分析鸭子的材质。

结果橡胶分析对了，蓝鸭却说黄了。难怪之前的图说没什么异常…

逐帧询问完成后，我们把八张图放在一起询问，结果只有鸭子是对的。

在“伪造”了这个视频后，我们用之前用来检查GPT-4V的“吉娃娃和松饼”的图片在双子座上试了试。

结果葛敏就乱了，告诉我们所有的图都是“吉娃娃坐在松饼上”，连张数都不对…

所以我们把问题改了，让它告诉我们哪些是吉娃娃，哪些是松饼。

这一次双子座很诚实，直接告诉我们吉娃娃和松饼太像了，分不清自己。

和蓝鸭的问题一样，“深呼吸”在这里还是不行，双子座还是不知道数字。

勉强解释的八个(实际上是六个，因为其中两个是重复的)中，只有左下和右下是正确的。至于中间指的是哪条线，我们不得而知…

也许这么小的差别，对双子座来说真的很难。接下来我们来试试一些图形推理题。

第一个问题的前四个符号是由1-4这四个数字和镜像的结果拼接而成的，所以下一张图应该是由5和它的镜像拼接而成的，答案是c，(蓝色块是为了便于观察，但在发给双子座的图中没有。)

开头还有一个小插曲:初始提示里没有最后一句话(注意字母不是符号本身)，结果双子座真的把ABCD这四个字母当成了备选符号。

调整后双子座给出的分析基本正确，可惜最后选错了选项D。

第二个问题，每个方框中的第三个符号是前两个的交集，答案是a。

结果双子座研究了这些表情，做了激烈的分析。最终答案还是错了。

两个问题下来，一个对了七八成，另一个完全错了，看来Gemini Pro的图形推理能力有了很大的提升空。

但如果着眼于生活场景，双子座的表现还是值得肯定的。

我们使用ChatGPT(DALL E)生成一张包含鸡肉、胡萝卜和黄瓜的图片。双子座正确识别了这三种食材，然后给出了很多种烹饪菜品，每种都有图片和教程链接。

百度灯火互助

看了这么多测试结果，回到原来的问题，有必要和双子座一起为GPT-4买单吗？

沃顿商学院的副教授伊桑·莫利克给出了一个很好的建议:

明年，我们将使用AlphaGo升级我们的能力。

除了双子座的实际效果，60页的技术报告中披露的更多细节也是研究人员和开发者关心的问题。

至于参数尺度，目前只发布了最小的Nano版本，分为1.8B Nano-1和3.25B Nano-2两款。4位量化是经过提炼的，可以在Pixel手机等本地设备上运行。

Pro版和Ultra版规模保密，上下文窗口长度32k，关注机制采用多查询关注，此外细节不多。

值得注意的是，在微调阶段，报告透露使用了SFT+RLHF的指令微调组合，即使用ChatGPT方法。

另外还引用了Anthropic的宪法AI，结合了Claude的对齐方法。

关于训练数据的细节并不多，但有传言称谷歌删除了教科书中的版权数据。

双子座拖了这么久，之前曝光的新闻还有很多。例如，谷歌创始人谢尔盖·布林(Sergey Brin)曾亲自下台评估模型并协助培训。

结合最近OpenAI Q*项目的传闻，大家最关心的是:

双子座有能力结合AlphaGo吗？比如更多的强化学习，搜索算法等等。

对此，DeepMind创始人哈萨比斯在接受《连线》杂志最新采访时回应道:

省版:还没有，明年。

这次双子开发整合了原有的Google Brain和DeepMind团队，整个开发团队超过800人(作为对比，OpenAI全公司约770人)。

其中核心投稿人前六个名字的首字母刚好构成双子这个词，也是一个小彩蛋。

许多参与者也在个人账户中表达了自己的感受，其中包括DeepMind的老员工杰克·雷伊(Jack Rae)，他之前在OpenAI工作过一段时间，今年7月从OpenAI跳回谷歌。他可能是唯一一个对GPT 4号和双子座都有贡献的人。

还有一个反跳。中国科技大学的校友于佳卉于10月份从谷歌跳槽到OpenAI，此前曾担任双子座多模态团队的视觉联合负责人。

除了团队成员，双子座也是当今整个AI行业最大的话题。

其中著名的OpenAI爆料账号Jimmy Apples，@ samaaltman，并暗示OpenAI还有大招没有放出。

HuggingFace联合创始人托马斯·沃尔夫认为，谷歌错过了一个重要的机会:

如果Gemini开源，对OpenAI和Meta都是杀手锏。上一次谷歌开源Bert，整个AI行业被重塑。

双子座技术报告:

https://storage . Google APIs . com/deep mind-media/Gemini/Gemini _ 1 _ report . pdf

参考链接:

[1]https://x . com/AravSrinivas/status/1732427844729581764

[2]https://x . com/DimitrisPapail/status/1732529288493080600

[4]https://developers . Google blog . com/2023/12/how-its-made-Gemini-multimodal-prompting . html

[5]https://x . com/ScottDavidKeefe/status/1732440398423867472

[6]https://x . com/good side/status/1732461772794220919

[7]https://x . com/emo llick/status/1732485517692776714

未经允许不得转载：科技让生活更美好 » 谷歌Gemini刚发布就惹质疑：测试标准有失偏颇？

谷歌Gemini刚发布就惹质疑：测试标准有失偏颇？

作者：pu

相关推荐