GPT-4 不会图形推理？“放水”后准确率依然只有 33%-科技让生活更美好

GPT-4的图形推理能力还不到人类的一半？

美国圣达菲研究所的一项研究表明，GPT-4做图形推理题的准确率只有33%。

拥有多模态能力的GPT-4v表现更差，只能做对25%的题。

△虚线表示16项任务的平均表现。

这个实验结果发表后，很快在YC引起了广泛的讨论。

认同这一结果的网友表示，GPT确实不擅长抽象图形处理，“位置”“旋转”等概念更难理解。

但另一方面，也有不少网友对这一结论心存疑虑。简单来说:

至于具体原因，我们继续往下看。

GPT-4的准确率只有33%

为了评估人类和GPT-4在这些图形问题中的表现，研究人员使用了他们自己的机构在今年5月推出的ConceptARC数据集。

ConceptARC包括图形推理题的16个子类，每类30题，共480题。

这16个子类涵盖了位置关系、形状、运算、比较等多个方面。

具体来说，这些题目都是由像素块组成的，人类和GPT需要根据给出的例子找出规律，用同样的方法分析图像处理的结果。

在论文中，作者展示了这16个子类别的例子，每个类别一个。

结果451名受试者各分项平均正确率不低于83%，16项任务平均正确率达到91%。

然而，当GPT-4(单一样本)可以对一个问题尝试三次(即使答对一次)，最高准确率也不超过60%，平均只有33%。

此前，参与本次实验的ConceptARC基准的作者也做过类似的实验，但在GPT-4中是零样本测试，16个任务的平均准确率只有19%。

然而，多模态GPT-4v的准确性甚至更低。在由48个问题组成的小规模ConceptARC数据集上，零样本和单样本测试的准确率分别只有25%和23%。

在进一步分析错误答案后，研究人员发现，一些人类的错误似乎是“由粗心引起的”，而GPT根本不了解问题中的规律。

鉴于这些数据，网民普遍没有怀疑，但使这个实验受到质疑的是招募的对象和GPT的输入法。

主题的选择受到质疑。

起初，研究人员在亚马逊的一个众包平台上招募受试者。

研究人员从数据集中提取了一些简单的问题作为入门测试，受试者需要正确回答三个随机问题中的至少两个，才能进入正式测试。

结果研究人员发现，入学测试的结果显示，有些人只是想得到钱，但他们根本没有按要求做题。

不得已，研究人员将参加测试的门槛提高到平台上不少于2000个任务，通过率要达到99%。

不过，作者虽然用通过率来筛选人，但除了被试需要懂英语外，对图形等其他专业能力没有特别要求。

为了使数据多样化，研究人员在实验后期将招募工作转移到另一个众包平台，最终共有415名受试者参与了实验。

尽管如此，还是有人质疑实验中的样本“不够随机”。

有网友指出，研究人员用来招募受试者的亚马逊众包平台上有冒充人类的大模特。

让我们再来看看GPT这边的操作。多模态版本相对简单。直接发图然后用这个提示就行了:

在零样本测试中，只需移除相应的示例部分。

但是对于没有多模态的GPT-4(0613)的纯文本版本，需要将图像转换为网格，并使用数字而不是颜色。

针对这种操作，有些人不同意:

还有一点

无独有偶，斯坦福大学的中国博士生Joy Hsu也用几何数据集测试了GPT-4v理解图形的能力。

这个数据集是去年发表的，用来测试在大模型中对欧几里德几何的理解。GPT-4v开启后，许又用这个数据集测试了一次。

事实证明，GPT-4v对图形的理解似乎“与人类完全不同”。

在数据上，GPT-4v对这些几何问题的回答显然不如人类。

纸张地址:

[1]https://arxiv . org/ABS/2305.07141

[2]https://arxiv . org/ABS/2311.09247

参考链接:

本文来自微信微信官方账号:量子位(ID: qbitai)，作者keresey。

未经允许不得转载：科技让生活更美好 » GPT-4 不会图形推理？“放水”后准确率依然只有 33%

GPT-4 不会图形推理？“放水”后准确率依然只有 33%

GPT-4的准确率只有33%

主题的选择受到质疑。

还有一点

作者：pu

相关推荐