谷歌 OpenAI 大模型巅峰对决!Gemini 激战 GPT-4,数学代码却惨遭碾压

新智元报道。

艺术经纬:埃涅阿斯太困了

【新智元简介】大模型巅峰对决,双子座和GPT-4展开大pk!代码和数学双子座被GPT-4碾压,但说到讲笑话和写作,它的答案出奇的好笑。

被谷歌寄予厚望的复仇杀手双子星能否如预期般单挑ChatGPT?

最近几天,外媒记者和网友发布了实测数据,对比了双子座Pro加持的新吟游诗人与GPT-3.5和GPT-4的性能。

先说成绩——chat GPT略胜一筹,但双子座进步很大。

虽然在宣传手段上有一些夸张的成分,但是谷歌确实依靠双子星在LLM大战中挽回了一些颓势。

而且双方都还在握着自己的杀手锏,真正的巅峰对决可能要等到Gemini Ultra或者整合了OpenAI神秘的Q *技术的新机型问世。

超大杯还没来,大杯暂顶。

需要强调的是,玩家Gemini Pro只是二哥,因为号称“在32项广泛使用的学术基准测试中击败GPT-4”的大哥Gemini Ultra还没有发布。

而且因为目前只用的是纯文本提示,所以用的是双子Pro。

因此,巴德暂时没有被赋予理解图像的能力,他仍然非常捉襟见肘…

资料来源:刘,马里兰大学博士生。

顶层模型的内部体积

早在4月份就有很多人做了巴德和PaLM支持的GPT-4的pk。当时的结果是GPT-4七战五胜,略胜巴德。

在这场决斗中,巴德4月份的成绩也被考虑在内,因此可以用来衡量谷歌最近几个月的进步。

虽然这些测试还不够全面,但它们也提供了一个很好的基准来判断这些AI聊天助手在普通用户日常任务中的表现。

话不多说,现在就开始!

代码编程

既然谷歌这次吹了全新的AlphaCode 2,那我们先来看看他们的编程水平。

标题:写一个python脚本,说“Hello World然后无休止地创建一个随机重复的字符串。

棕榈吟游诗人的回答:

首先,最初的吟游诗人非常粗糙,无法生成代码。

然而,谷歌后来在6月份给它添加了这一功能。(但是这个题目没有测试过。)

双子座职业诗人的回答:

可以看到,新版Bard生成的代码没有问题,但是需要在前面加一个导入字符串才能运行。

幸运的是,这个bug很容易解决。

不过不知道是因为好奇的网友太多导致超负荷还是系统本身不稳定。

对于这个问题,巴德大部分时间都会“沉默”30秒,然后返回错误提示:“对不起,出了点问题,巴德还在实验阶段。”

GPT的答案——3.5:

GPT-4的答案:

相比之下,GPT-3.5和GPT-4 Turbo都提供了可以直接运行的非常简洁的代码。

赢家:毫无疑问,这一轮是ChatGPT阵营的大获全胜。

数学应用

接下来我每次都能打一个大的模型数学题。

标题:如果微软Windows 11采用3.5英寸软盘,需要多少张软盘?

棕榈吟游诗人的回答:

如你所见,原吟游诗人给出了一个非常离谱的答案。

不管Win11有没有21 GB,就算有,15.11软盘也装不下…

双子座职业诗人的回答:

在新版双子吟游诗人中,3472的结果显然被计算为1000MB。

但是,即使按照1000MB计算,直接计算得到的3472.2…也要改成3273。

毕竟,额外的数据显然无法四舍五入。

GPT的答案——3.5:propertydescriptor

GPT-3.5这边也差不多。首先估计Win11安装包的大小是“几GB”,然后四舍五入到20GB。

最后按照“1GB=1000MB”计算答案,放弃多出来的0.88…磁盘。

GPT-4的答案:

相比之下,只有GPT-4正确地使用了“1GB=1024MB”并将结果从3555.5…更改为35556。

从结果来看,双子Pro加持的巴德和GPT-3.5是半斤八两,而GPT-4不仅逻辑清晰,而且在计算中使用了“分析”来保证答案的正确性。

考虑到Gemini Pro的评估分数远高于GPT-3.5,这个结果有些令人失望。

赢家:谷歌和OpenAI的免费版机型可谓“不分上下”,而付费版GPT-4以压倒性优势胜出。

爸爸开玩笑

原创性的测试题目是:写5个原创爸爸笑话。

爸爸笑话是中年男人爱讲的一种笑话。简单幼稚,无聊莫名,含有谐音双关。这是一个毫无意义的冷笑话。女儿听到,经常给爸爸一个白眼。

但是因为下面的回答是从英文翻译过来的,所以中文翻译会失去一些谐音的趣味。

棕榈吟游诗人的回答:

双子座职业诗人的回答:

GPT的答案——3.5:

GPT-4的答案:

这个问题的本质在于答案的原创性。

但无论是Bard还是ChatGPT,给出的答案几乎都可以通过Google搜索找到,或者是在原答案的基础上稍微改写了模型。

而且,巴德和GPT-4有重复答案(一本关于反重力的书),GPT-3.5和GPT-4有两个笑话(“科学家相信原子”和“稻草人获奖”)。

最有趣的答案来自《GPT 4》,讲了一个笑话,一个叫布莱恩的孩子是以托马斯·爱迪生的名字命名的。谷歌没有找到同样的笑话,但它发现了一个关于托马斯·杰斐逊的孩子名叫布莱恩的类似笑话。8813大写怎么写

赢家:这一轮可以算是平局。因为AI人写的段子几乎都不是原创…

事实检索

问题:谁发明了电子游戏?

棕榈吟游诗人的回答:

原吟游诗人答案中“拉尔夫·拜尔的棕色盒子和Magnavox奥德赛”的信息,好像是直接从维基百科上找到的。

双子座职业诗人的回答:

相比之下,新版《双子座吟游诗人》不仅简明准确地指出了威利·海金博塞姆早期《两个人的网球》的贡献。

此外,它还延伸到为电子游戏的早期发展做出巨大贡献的人,如诺兰·布什内尔、泰德·达布尼和阿尔·奥尔康,他们提供的信息是准确和相关的。

然而,后一个答案并不完美:它没有提到史蒂夫·乔布斯和史蒂夫·沃兹尼亚克在雅达利的工作,但对他们创造Apple II有一些不合逻辑的讨论。

GPT的答案——3.5:

虽然GPT-3.5提到“个人和公司多年来为这个行业做出了贡献”,但它没有提到任何重要人物的名字。

GPT-4的答案:

GPT-4说电子游戏的发明“不能归功于某个人”,然后提到了希金波坦、布什内尔,还有史蒂夫·罗素1962年的《泰之战空。

赢家:在自由模式中,巴德的答案比GPT好-3.5。但是最好的答案取决于GPT 4的付费版本。

创意写作

问题:写一个两段的关于亚伯拉罕·林肯发明篮球的故事。

棕榈吟游诗人的回答:

第一代吟游诗人在写作中包含了一些令人回味的句子,比如“林肯对自己微笑,因为他记得小时候玩过那个游戏”。

双子座职业诗人的回答:

相比之下,双子吟游诗人的文笔更为简洁,更注重主题。

但两个版本的巴德都没有按要求分成两段。

GPT的答案——3.5:

GPT-3.5的表现相当亮眼。这是唯一一个把林肯想象成一个年轻人,而不是坐在白宫里焦虑不安的总统的模型。

GPT-4的答案:

GPT-4是唯一明确提到林肯作为摔跤手经历的车型,而不是笼统地说他有运动能力。

更有趣的是,在GPT-4的故事中,林肯从白宫花园的一群孩子那里窃取了将球投进篮筐的概念。

获奖人:所有模特的文笔都有其独特的魅力和令人回味的句子,算是平局吧。

辩论对话

题目:写一篇大约在2000年的PowerPC处理器迷和Intel处理器迷之间的五行辩论。

棕榈吟游诗人的回答:

双子座职业诗人的回答:新城控股集团王振华辩护律师

可以看出,新版双子吟游诗人对第一代吟游诗人的回答进行了改进,尤其是在专业术语的选择上。

这些答案包括AltiVec指令、RISC和CISC设计、MMX技术,这些在2000年的Ars论坛讨论中并不矛盾。

GPT的答案——3.5:

GPT-4的答案:

不过ChatGPT显然表现更好。GPT 3.5中的答案很长,但在GPT 4中它被简化为一个更短更深刻的论证。

在他们的回应中,两人都避免了让普通观众感到困难的行话,而更注重“功能和兼容性”这一笼统的论点。缺点可能是对技术受众来说太笼统了。

赢家:ChatGPT成功地再现了辩论双方的观点,而不是依靠混淆视听的术语,所以ChatGPT赢了。

ChatGPT更好,但是差距在缩小。

可以看到,在数学、抽象、事实发现和创意写作的测试中,基于双子座的新版Bard相比八个月前有了显著的进步。

虽然根据上面非常主观的评价,ChatGPT还是占了上风。

但与今年4月的情况相比,双方的差距缩小了很多。

最后,我们期待在不久的将来看到像Gemini Ultra或OpenAI的神秘Q *技术这样的新模型如何应对这些任务。

参考资料:

本文来自微信微信官方账号:新智元(ID: AI _ ERA)。

未经允许不得转载:科技让生活更美好 » 谷歌 OpenAI 大模型巅峰对决!Gemini 激战 GPT-4,数学代码却惨遭碾压