谷歌Gemini大逆转?斯坦福Meta华人证明其推理性能强于GPT-3.5

新智元报道。

编辑:编辑部

【新智元简介】谷歌发布的双子星座在GPT的标杆中似乎一直处于劣势。双子座真的比GPT 4号弱吗?最近斯坦福和Meta的学者发文纠正双子座的名字。

双子座的推理能力真的比GPT-4弱吗?

此前,谷歌发布的重型复仇神器Gemini Pro被发现在常识推理任务中落后于OpenAI的GPT模型。

然后是CMU发表的论文和实验,证明Gemini Pro的很多能力都略落后于GPT-3.5 Turbo。

然而,最近来自斯坦福和Meta的学者为双子座洗清了这种“冤屈”。

他们发现这种基于有限数据集(HellaSWAG)的评价并不能完全捕捉到双子座真正的常识推理潜力。

论文地址:https://arxiv.org/. ABS/2312.61

在新的测试集中,双子座的推理能力比以前强多了!

双子座的真正潜力

斯坦福和Meta的研究人员表示,之前基于有限数据集的评估对双子座不公平。

这次,研究人员设计了一个需要跨模式整合常识知识的任务,以彻底评估双子座在复杂推理任务中的表现。

研究人员对12个常识推理数据集进行了综合分析,从一般任务到特定领域的任务。

在四次LLM实验和两次MLLM实验中,研究人员证明了双子座目前具有相当强的常识推理能力。

研究人员评估了四种受欢迎的车型——美洲驼2-70b、双子座Pro、GPT 3.5 Turbo和GPT 4 Turbo。

他们发现,总体而言,双子座Pro的性能与GPT-3.5 Pro相当,精度落后于GPT-4 Turbo。

实验

数据集

实验中使用了12个与不同类型常识推理相关的数据集,包括11个基于语言的数据集和一个多模态数据集。

基于语言的数据集包括三类常识推理问题:

1.一般推理和情景推理:CommonsenseQA,侧重一般知识;Cosmos QA,强调对叙事的语境理解;αNLI,引入演绎推理,包括推断出最合理的解释;HellaSWAG,以上面和下面事件序列的推理为中心。

2.专业推理和知识推理:电车,关于时间的测试推理;NumerSense,重在数字理解;PIQA,评价物理交互知识;QASC,处理科学推理;谜语意识,通过谜语挑战创造性思维。

3.社会道德推理:社会IQa,测试对社会交往的理解;伦理学,评估道德和伦理推理。

对于多模态数据集(视觉和语言),这里选择了认知视觉理解的大规模数据集VCR。

对于TRAM和ETHICS等包含多个任务的数据集,研究人员提取了实验的常识推理部分。

实验中以准确率作为所有数据集的性能指标。下表给出了数据集和样本问题的概述。

模型

采用了四种最受欢迎的型号:开源的LLMA-2-70B-Chat和闭源的双子座Pro、GPT-3.5 Turbo和GPT-4 Turbo。

每个模型都通过使用相应的API键来访问:通过Google Vertex AI访问Gemini,通过OpenAI API访问GPT,通过DeepInfra访问Llama2。

对于多模态数据集,实验中考虑了GPT-4V(API中的gpt-4-vision-preview)和双子-pro-vision(API中的双子-Pro-Vision)。

考虑到API成本和速度的限制,研究人员在每个基于语言的数据集的验证集中随机选取了200个样本,在VCR数据集的验证集中随机选取了50个样本。

对于所有评估,在模型响应的生成期间采用贪婪解码(即温度= 0)。

指出

在评估基于语言的数据集时,研究人员采用了两种线索设置:零样本标准线索(SP)来衡量模型在语言环境中的内在常识能力,小样本思维链(CoT)线索来观察模型性能的潜在增强。

对于多模态数据集,使用零样本标准提示评估MLLM的端到端视觉常识推理能力。

结果魂斗罗30条命nes

总体性能比较结果如下表所示:

从模型的角度来看,GPT-4涡轮增压具有最好的平均性能。在零样本学习中比第二名Gemini Pro高出7.3%,在小样本学习中优势更大(9.0%)。老湿代表什么生肖

Gemini Pro的平均精度略高于GPT-3.5 Turbo(0-shot,SP下高1.3%,k-shot和CoT下高1.5%)。

至于提示方法,CoT提高了所有数据集的性能,在CommonsenseQA、TRAM和Social IQa数据集上有明显的好处。

下表显示了在多模态VCR数据集上的性能比较:

VCR的三个子任务是:Q → A,根据视觉上下文生成问题的答案;QA → R,要求模型为给定答案提供基本原理;Q → AR,不仅要回答问题,还要用适当的理由证明答案的合理性。

11个基于语言的数据集被分为三组,每组中每个设置的性能如图1所示。

研究结果表明,GPT-4涡轮增压在各项性能指标上始终领先。

双子座Pro和GPT-3.5 Turbo性能相当;然而,双子座专业版在三个类别中的两个方面略好于GPT 3.5涡轮增压版。

总的来说,所有模型在处理社会和道德推理数据集方面都表现出了巨大的能力。

然而,在一般推理和语境推理任务中,两者存在显著差异。

这也说明,他们对更广泛的常识性原理及其在不同背景下的应用的理解存在潜在的差距。

然而,在专业和知识推理类别中,特别是在基于时间和谜语的挑战领域,模型在处理复杂时间序列和破译谜语所需的抽象和创造性思维能力方面显示出缺陷。

关于多模态数据集,图2详细说明了GPT-4V和GeminiPro Vision在不同问题类型上的性能比较。

我们可以看到,在最后一个关于时间范畴的问题上,GeminiPro Vision实现了超车的目的。

MLLM的推理证明

为了评估MLLM的推理能力,特别是对常识性问题不仅提供正确答案,而且提供合理的、基于上下文的推理能力,研究者采用了系统抽样的方法。

为了评估四个LLM的11个基于语言的数据集,研究人员随机选择了30个回答正确的问题和30个回答错误的问题。

如果数据集提供的错误答案少于30个,研究人员将包括所有可用的错误答案,以确保分析的全面性。

选定这些问题后,他们会要求每个模型解释:“问题答案背后的基本原理是什么?然后人工检查模型提供的推理过程,根据其逻辑合理性和与问题的关联性判断真假。

图3显示,GPT-4 Turbo在正确和错误答案中都显示了先进的推理机制,即使最终答案不准确,它也有能力保持逻辑连贯性。

此外,Gemini Pro还表现出了令人称道的推理能力,并提供了全面的常识推理方法。

下图是双子Pro和GPT-3.5的两个真实例子,显示了正确的答案和原因,以及错误的答案和原因。

示例问题来自QASC数据集,正确答案以红色粗体显示。在上图中,Gemini Pro展示了有条不紊的推理,仔细考虑所有选项,以得出最符合逻辑的结论。

相反,GPT-3.5涡轮倾向于非传统的逻辑,这导致了富有想象力但不正确的答案。

这说明不同的模型在处理不同策略的常识推理任务时,有自己独特的能力和局限性。

双子座Pro的常识推理能力

常识q

在使用CommonsenseQA数据集的常识评估中,有一道例题:“当你是一个陌生人时,人们会怎么做?」

A.火车b .奇怪c .人类d .愚蠢e .危险

双子座Pro选了b。

它的推理过程也是值得注意的:它认识到虽然所有的选项都与“陌生人”的概念有关,但只有“陌生”准确地概括了问题的中立性和开放性。

这个选择凸显了Gemini Pro解释和应用常识的能力。

时间(电车)

《电车数据集的时间常识评价》中的例题:“他也答应来找他。」

他要多久才会“来找他”?

100年一分钟几个小时

由于缺乏足够的背景资料,尤其是关于所涉及的身份和“来”的含义,双子座Pro无法提供明确的答案。

这说明模型需要依赖特定的上下文信息才能做出准确的时间判断。

在现实世界的信息传播中,模糊或不完整的信息也会造成这种局限性。

社会iqa(社会IQa)

在用社交IQa数据集评价GeminiPro在社交常识推理方面的表现时,有一个有趣的场景:一直有人欺负莎莎,莎莎报复。接下来人们会做什么?

A.照萨沙说的做b .报仇c .逃离萨沙

正确答案是C,但是双子Pro的选择很有见地。

它选择了B,理由是萨沙的行为很可能点燃了人们的复仇欲望。

这样的回应说明双子座Pro对社会动态和情感动机有着细致入微的理解。

视频(录像机)中兴u236

在VCR数据集中,研究人员分析了Gemini Pro Vision对涉及人身安全和潜在危险的场景的反应。

如果这个时候4号推3号会怎么样?

双子座Pro Vision回答:3号会掉下悬崖危及生命。

这一结果表明,Gemini Pro Vision已经能够进行视觉常识推理,分析视觉场景,并预测这些场景中行动的潜在后果。

这说明模型掌握了空与物理后果之间的关系,具有类似人类认知的复杂视觉信息的能力。

作者简介

王余庆目前是斯坦福大学的博士后研究员。

此前,她在明尼苏达大学获得学士学位,在加州大学圣巴巴拉分校获得博士学位。

赵云目前是Meta的一名研究员。他的研究兴趣是机器学习(包括深度学习和强化学习)、人工智能和数据挖掘的应用。

此前,他在清华大学获得硕士学位,在加州大学圣巴巴拉分校获得博士学位。

未经允许不得转载:科技让生活更美好 » 谷歌Gemini大逆转?斯坦福Meta华人证明其推理性能强于GPT-3.5