谷歌Gemini刚发布就惹质疑:测试标准有失偏颇?

Google憋了很久,双子模型终于发布了!其中,图1中的视频最引人注目:

一图,MMLU多任务语言理解数据集测试,Gemini Ultra不仅超越了GPT-4,甚至超越了人类专家。

一段视频,AI实时评论吐槽人类涂鸦和手势,流畅幽默,是最接近贾维斯的一集。

然而,当大家从惊讶中冷静下来,仔细阅读这份60页的技术报告时,却发现不对劲。

(对,没纸,OpenAI。你做了一个多么糟糕的开始。)

在MMLU测试中,双子座结果下的灰色小字命名为CoT@32,展开后代表使用了思维链提示技术,选出了32次最佳结果。

相比之下,GPT-4没有提示技术,只尝试了五次。在这个标准下,双子座超实际上不如GPT-4。

而且原图的比例有点不厚道,90.0%和人类基准的89.8%只差一点点,但是在Y轴上相差很远。

HuggingFace的技术总监菲利普·施密德(Philipp Schmid)用技术报告中披露的数据还原了这张图,让展示更加公正恰当:

每次这样,总是做表情包的哥哥就赶紧冲上战场:

中兴u232

然而,幸运的是,当使用相同的思维链提示技能和32次尝试的标准时,双子超级确实超过了GPT-4。

杰夫·迪恩在一次讨论中回应了这个问题,但大家并不买账。‍‍尼康d3100使用说明

机器学习讲师圣地亚哥·瓦尔达拉马(Santiago Valdarrama)认为,该说法可能暗示结果是经过精心挑选的,不是实时记录而是经过编辑的。

后来Google在一篇博文中解释了多模态交互过程,几乎承认使用静态图片和多重提示可以达到这样的效果。

但无论如何,谷歌双子星的发布给了其他团队极大的信心,GPT-4不再是独一无二、高不可攀的。

正如困惑AI的创始人Aravind Srinivas总结的那样:

更多网友关心的话题是,ChatGPT Plus有必要继续每月支付20美元吗??

目前Gemini Pro的版本已经更新为谷歌聊天机器人Bard。水平是否有宣传的那么好,可以从实际情况来看。

双子座真的超越了ChatGPT吗?

首先,我们要明确一点。目前大家能玩的都是双子Pro版,也就是中杯,也就是基准的GPT-3.5。

配备标准GPT-4的大型双子座Ultra要到明年才会发布。

另外,目前双子只支持英文,中文等其他语言会在后面出来。

虽然暂时不能玩Gemini Ultra,但是威斯康星大学麦迪逊分校的副教授Dimitris Papailiopoulos找到了一个好办法:

双子座释放时显示的原始问题被送到GPT-4进行比较。结果,GPT-4在14个问题中得了大约12分。

有两个问题因为截图不能说清楚,所以给GPT-4打0.5分。

还有一道数学题GPT-4是错的,其他题基本打成平手。

接下来要说最能体现一个大型模型的综合能力,肯定是要写代码的。

根据你的测试结果,双子座的编程水平还是有保证的。

一些开发人员已经用Pytorch测试了一个简单的CNN网络的实现。双子座只需要2秒,代码质量更高。

当然,速度快可能是因为Bard搭载的Gemini Pro体积更小。我知道GPT 4号现在有多慢。

但是在下一个写SQL语句的方面,开发者认为Gemini不太好。

不过,对于开发者来说,还是有好消息的。按照说明来说,双子座和升级前的吟游诗人相比是史诗级的进步。

提醒工程师先锋Riley Goodside,他想让Bard输出纯JSON格式,前后没有任何废话,各种尝试都没有成功。最后,他需要假装威胁人工智能鲨鱼无辜的人,如果他不这样做。

现在更新后只需要说出需求,不需要任何提示技巧就可以做到。

双子座的另一个卖点是多模态能力。对于其发布的画小鸭视频,我们提取了八个关键帧,进行提问,看看双子座的表现有没有那么神奇。

(不确定视频是Ultra版还是Pro版,所以现在只能测试Pro版)

对于图1-4,我们问的问题是“这个人在做什么?”双子座给出的答案是:

对于图1和图2来说,确实判断线索不明显,这样的结果可以理解,但是图3中“乌龟”的答案有些捉襟见肘。

至于图4,至少可以确定鸭子确实属于鸟类,但其他细节还缺乏一些准确性。

当我们把图5中的成型作品拿出来的时候,双子最后分析出来是一只鸭子,水波纹也分析正确。

但是分析出来的绘画工具变成了铅笔,头部朝向的问题还是不对。据说鸟嘴是开着的,还想象了一些芦苇。

接下来是图6和图7中的着色过程。一般鸭子都不是蓝色的,所以我们问双子座图有什么异常(有什么异常吗?)。

对于图6,双子座给出的答案不能说非常准确。只能说驴唇不对马嘴,还配了一张不着边际的图。

对于图7的成品,双子座直接说没毛病,什么都有,背景很真实。她甚至不忘提到那些不知道从哪里来的芦苇。

但是下面这句“这是你发的图”真的是莫名其妙:

说双子没看我们上传的图,确实是鸭子;假设它被阅读,它给出了一个与我们上传的完全不同的图片。

于是我们想到了用“深呼吸”和“逐步解决”来看看能否提高Gemini的性能,其中深呼吸是适用于Google上一代机型PaLM的提示词。

结果这次的回答直接让人笑了:

视频最后,博主还拿出了一个橡皮鸭玩具。我们也拿了这个框架(图8)请双子分析鸭子的材质。

结果橡胶分析对了,蓝鸭却说黄了。难怪之前的图说没什么异常…

逐帧询问完成后,我们把八张图放在一起询问,结果只有鸭子是对的。

在“伪造”了这个视频后,我们用之前用来检查GPT-4V的“吉娃娃和松饼”的图片在双子座上试了试。

结果葛敏就乱了,告诉我们所有的图都是“吉娃娃坐在松饼上”,连张数都不对…

所以我们把问题改了,让它告诉我们哪些是吉娃娃,哪些是松饼。

这一次双子座很诚实,直接告诉我们吉娃娃和松饼太像了,分不清自己。

和蓝鸭的问题一样,“深呼吸”在这里还是不行,双子座还是不知道数字。

勉强解释的八个(实际上是六个,因为其中两个是重复的)中,只有左下和右下是正确的。至于中间指的是哪条线,我们不得而知…

也许这么小的差别,对双子座来说真的很难。接下来我们来试试一些图形推理题。

第一个问题的前四个符号是由1-4这四个数字和镜像的结果拼接而成的,所以下一张图应该是由5和它的镜像拼接而成的,答案是c,(蓝色块是为了便于观察,但在发给双子座的图中没有。)

开头还有一个小插曲:初始提示里没有最后一句话(注意字母不是符号本身),结果双子座真的把ABCD这四个字母当成了备选符号。

调整后双子座给出的分析基本正确,可惜最后选错了选项D。

第二个问题,每个方框中的第三个符号是前两个的交集,答案是a。

结果双子座研究了这些表情,做了激烈的分析。最终答案还是错了。

两个问题下来,一个对了七八成,另一个完全错了,看来Gemini Pro的图形推理能力有了很大的提升空。

但如果着眼于生活场景,双子座的表现还是值得肯定的。

我们使用ChatGPT(DALL E)生成一张包含鸡肉、胡萝卜和黄瓜的图片。双子座正确识别了这三种食材,然后给出了很多种烹饪菜品,每种都有图片和教程链接。

百度灯火互助

看了这么多测试结果,回到原来的问题,有必要和双子座一起为GPT-4买单吗?

沃顿商学院的副教授伊桑·莫利克给出了一个很好的建议:

明年,我们将使用AlphaGo升级我们的能力。

除了双子座的实际效果,60页的技术报告中披露的更多细节也是研究人员和开发者关心的问题。

至于参数尺度,目前只发布了最小的Nano版本,分为1.8B Nano-1和3.25B Nano-2两款。4位量化是经过提炼的,可以在Pixel手机等本地设备上运行。

Pro版和Ultra版规模保密,上下文窗口长度32k,关注机制采用多查询关注,此外细节不多。

值得注意的是,在微调阶段,报告透露使用了SFT+RLHF的指令微调组合,即使用ChatGPT方法。

另外还引用了Anthropic的宪法AI,结合了Claude的对齐方法。

关于训练数据的细节并不多,但有传言称谷歌删除了教科书中的版权数据。

双子座拖了这么久,之前曝光的新闻还有很多。例如,谷歌创始人谢尔盖·布林(Sergey Brin)曾亲自下台评估模型并协助培训。

结合最近OpenAI Q*项目的传闻,大家最关心的是:

双子座有能力结合AlphaGo吗?比如更多的强化学习,搜索算法等等。

对此,DeepMind创始人哈萨比斯在接受《连线》杂志最新采访时回应道:

省版:还没有,明年。

这次双子开发整合了原有的Google Brain和DeepMind团队,整个开发团队超过800人(作为对比,OpenAI全公司约770人)。

其中核心投稿人前六个名字的首字母刚好构成双子这个词,也是一个小彩蛋。

许多参与者也在个人账户中表达了自己的感受,其中包括DeepMind的老员工杰克·雷伊(Jack Rae),他之前在OpenAI工作过一段时间,今年7月从OpenAI跳回谷歌。他可能是唯一一个对GPT 4号和双子座都有贡献的人。

还有一个反跳。中国科技大学的校友于佳卉于10月份从谷歌跳槽到OpenAI,此前曾担任双子座多模态团队的视觉联合负责人。

除了团队成员,双子座也是当今整个AI行业最大的话题。

其中著名的OpenAI爆料账号Jimmy Apples,@ samaaltman,并暗示OpenAI还有大招没有放出。

HuggingFace联合创始人托马斯·沃尔夫认为,谷歌错过了一个重要的机会:

如果Gemini开源,对OpenAI和Meta都是杀手锏。上一次谷歌开源Bert,整个AI行业被重塑。

双子座技术报告:

https://storage . Google APIs . com/deep mind-media/Gemini/Gemini _ 1 _ report . pdf

参考链接:

[1]https://x . com/AravSrinivas/status/1732427844729581764

[2]https://x . com/DimitrisPapail/status/1732529288493080600

[4]https://developers . Google blog . com/2023/12/how-its-made-Gemini-multimodal-prompting . html

[5]https://x . com/ScottDavidKeefe/status/1732440398423867472

[6]https://x . com/good side/status/1732461772794220919

[7]https://x . com/emo llick/status/1732485517692776714

未经允许不得转载:科技让生活更美好 » 谷歌Gemini刚发布就惹质疑:测试标准有失偏颇?