GPT-4的图形推理能力还不到人类的一半?
美国圣达菲研究所的一项研究表明,GPT-4做图形推理题的准确率只有33%。
拥有多模态能力的GPT-4v表现更差,只能做对25%的题。
△虚线表示16项任务的平均表现。
这个实验结果发表后,很快在YC引起了广泛的讨论。
认同这一结果的网友表示,GPT确实不擅长抽象图形处理,“位置”“旋转”等概念更难理解。
但另一方面,也有不少网友对这一结论心存疑虑。简单来说:
至于具体原因,我们继续往下看。
GPT-4的准确率只有33%
为了评估人类和GPT-4在这些图形问题中的表现,研究人员使用了他们自己的机构在今年5月推出的ConceptARC数据集。
ConceptARC包括图形推理题的16个子类,每类30题,共480题。
这16个子类涵盖了位置关系、形状、运算、比较等多个方面。
具体来说,这些题目都是由像素块组成的,人类和GPT需要根据给出的例子找出规律,用同样的方法分析图像处理的结果。
在论文中,作者展示了这16个子类别的例子,每个类别一个。
结果451名受试者各分项平均正确率不低于83%,16项任务平均正确率达到91%。
然而,当GPT-4(单一样本)可以对一个问题尝试三次(即使答对一次),最高准确率也不超过60%,平均只有33%。
此前,参与本次实验的ConceptARC基准的作者也做过类似的实验,但在GPT-4中是零样本测试,16个任务的平均准确率只有19%。
然而,多模态GPT-4v的准确性甚至更低。在由48个问题组成的小规模ConceptARC数据集上,零样本和单样本测试的准确率分别只有25%和23%。
在进一步分析错误答案后,研究人员发现,一些人类的错误似乎是“由粗心引起的”,而GPT根本不了解问题中的规律。
鉴于这些数据,网民普遍没有怀疑,但使这个实验受到质疑的是招募的对象和GPT的输入法。
主题的选择受到质疑。
起初,研究人员在亚马逊的一个众包平台上招募受试者。
研究人员从数据集中提取了一些简单的问题作为入门测试,受试者需要正确回答三个随机问题中的至少两个,才能进入正式测试。
结果研究人员发现,入学测试的结果显示,有些人只是想得到钱,但他们根本没有按要求做题。
不得已,研究人员将参加测试的门槛提高到平台上不少于2000个任务,通过率要达到99%。
不过,作者虽然用通过率来筛选人,但除了被试需要懂英语外,对图形等其他专业能力没有特别要求。
为了使数据多样化,研究人员在实验后期将招募工作转移到另一个众包平台,最终共有415名受试者参与了实验。
尽管如此,还是有人质疑实验中的样本“不够随机”。
有网友指出,研究人员用来招募受试者的亚马逊众包平台上有冒充人类的大模特。
让我们再来看看GPT这边的操作。多模态版本相对简单。直接发图然后用这个提示就行了:
在零样本测试中,只需移除相应的示例部分。
但是对于没有多模态的GPT-4(0613)的纯文本版本,需要将图像转换为网格,并使用数字而不是颜色。
针对这种操作,有些人不同意:
还有一点
无独有偶,斯坦福大学的中国博士生Joy Hsu也用几何数据集测试了GPT-4v理解图形的能力。
这个数据集是去年发表的,用来测试在大模型中对欧几里德几何的理解。GPT-4v开启后,许又用这个数据集测试了一次。
事实证明,GPT-4v对图形的理解似乎“与人类完全不同”。
在数据上,GPT-4v对这些几何问题的回答显然不如人类。
纸张地址:
[1]https://arxiv . org/ABS/2305.07141
[2]https://arxiv . org/ABS/2311.09247
参考链接:
本文来自微信微信官方账号:量子位(ID: qbitai),作者keresey。
未经允许不得转载:科技让生活更美好 » GPT-4 不会图形推理?“放水”后准确率依然只有 33%