GPT-4 不会图形推理?“放水”后准确率依然只有 33%

GPT-4的图形推理能力还不到人类的一半?

美国圣达菲研究所的一项研究表明,GPT-4做图形推理题的准确率只有33%。

拥有多模态能力的GPT-4v表现更差,只能做对25%的题。

△虚线表示16项任务的平均表现。

这个实验结果发表后,很快在YC引起了广泛的讨论。

认同这一结果的网友表示,GPT确实不擅长抽象图形处理,“位置”“旋转”等概念更难理解。

但另一方面,也有不少网友对这一结论心存疑虑。简单来说:

至于具体原因,我们继续往下看。

GPT-4的准确率只有33%

为了评估人类和GPT-4在这些图形问题中的表现,研究人员使用了他们自己的机构在今年5月推出的ConceptARC数据集。

ConceptARC包括图形推理题的16个子类,每类30题,共480题。

这16个子类涵盖了位置关系、形状、运算、比较等多个方面。

具体来说,这些题目都是由像素块组成的,人类和GPT需要根据给出的例子找出规律,用同样的方法分析图像处理的结果。

在论文中,作者展示了这16个子类别的例子,每个类别一个。

结果451名受试者各分项平均正确率不低于83%,16项任务平均正确率达到91%。

然而,当GPT-4(单一样本)可以对一个问题尝试三次(即使答对一次),最高准确率也不超过60%,平均只有33%。

此前,参与本次实验的ConceptARC基准的作者也做过类似的实验,但在GPT-4中是零样本测试,16个任务的平均准确率只有19%。

然而,多模态GPT-4v的准确性甚至更低。在由48个问题组成的小规模ConceptARC数据集上,零样本和单样本测试的准确率分别只有25%和23%。

在进一步分析错误答案后,研究人员发现,一些人类的错误似乎是“由粗心引起的”,而GPT根本不了解问题中的规律。

鉴于这些数据,网民普遍没有怀疑,但使这个实验受到质疑的是招募的对象和GPT的输入法。

主题的选择受到质疑。

起初,研究人员在亚马逊的一个众包平台上招募受试者。

研究人员从数据集中提取了一些简单的问题作为入门测试,受试者需要正确回答三个随机问题中的至少两个,才能进入正式测试。

结果研究人员发现,入学测试的结果显示,有些人只是想得到钱,但他们根本没有按要求做题。

不得已,研究人员将参加测试的门槛提高到平台上不少于2000个任务,通过率要达到99%。

不过,作者虽然用通过率来筛选人,但除了被试需要懂英语外,对图形等其他专业能力没有特别要求。

为了使数据多样化,研究人员在实验后期将招募工作转移到另一个众包平台,最终共有415名受试者参与了实验。

尽管如此,还是有人质疑实验中的样本“不够随机”。

有网友指出,研究人员用来招募受试者的亚马逊众包平台上有冒充人类的大模特。

让我们再来看看GPT这边的操作。多模态版本相对简单。直接发图然后用这个提示就行了:

在零样本测试中,只需移除相应的示例部分。

但是对于没有多模态的GPT-4(0613)的纯文本版本,需要将图像转换为网格,并使用数字而不是颜色。

针对这种操作,有些人不同意:

还有一点

无独有偶,斯坦福大学的中国博士生Joy Hsu也用几何数据集测试了GPT-4v理解图形的能力。

这个数据集是去年发表的,用来测试在大模型中对欧几里德几何的理解。GPT-4v开启后,许又用这个数据集测试了一次。

事实证明,GPT-4v对图形的理解似乎“与人类完全不同”。

在数据上,GPT-4v对这些几何问题的回答显然不如人类。

纸张地址:

[1]https://arxiv . org/ABS/2305.07141

[2]https://arxiv . org/ABS/2311.09247

参考链接:

本文来自微信微信官方账号:量子位(ID: qbitai),作者keresey。

未经允许不得转载:科技让生活更美好 » GPT-4 不会图形推理?“放水”后准确率依然只有 33%