谷歌 OpenAI 大模型巅峰对决！Gemini 激战 GPT-4，数学代码却惨遭碾压-科技让生活更美好

新智元报道。

艺术经纬:埃涅阿斯太困了

【新智元简介】大模型巅峰对决，双子座和GPT-4展开大pk！代码和数学双子座被GPT-4碾压，但说到讲笑话和写作，它的答案出奇的好笑。

被谷歌寄予厚望的复仇杀手双子星能否如预期般单挑ChatGPT？

最近几天，外媒记者和网友发布了实测数据，对比了双子座Pro加持的新吟游诗人与GPT-3.5和GPT-4的性能。

先说成绩——chat GPT略胜一筹，但双子座进步很大。

虽然在宣传手段上有一些夸张的成分，但是谷歌确实依靠双子星在LLM大战中挽回了一些颓势。

而且双方都还在握着自己的杀手锏，真正的巅峰对决可能要等到Gemini Ultra或者整合了OpenAI神秘的Q *技术的新机型问世。

超大杯还没来，大杯暂顶。

需要强调的是，玩家Gemini Pro只是二哥，因为号称“在32项广泛使用的学术基准测试中击败GPT-4”的大哥Gemini Ultra还没有发布。

而且因为目前只用的是纯文本提示，所以用的是双子Pro。

因此，巴德暂时没有被赋予理解图像的能力，他仍然非常捉襟见肘…

资料来源:刘，马里兰大学博士生。

顶层模型的内部体积

早在4月份就有很多人做了巴德和PaLM支持的GPT-4的pk。当时的结果是GPT-4七战五胜，略胜巴德。

在这场决斗中，巴德4月份的成绩也被考虑在内，因此可以用来衡量谷歌最近几个月的进步。

虽然这些测试还不够全面，但它们也提供了一个很好的基准来判断这些AI聊天助手在普通用户日常任务中的表现。

话不多说，现在就开始！

代码编程

既然谷歌这次吹了全新的AlphaCode 2，那我们先来看看他们的编程水平。

标题:写一个python脚本，说“Hello World然后无休止地创建一个随机重复的字符串。

棕榈吟游诗人的回答:

首先，最初的吟游诗人非常粗糙，无法生成代码。

然而，谷歌后来在6月份给它添加了这一功能。(但是这个题目没有测试过。)

双子座职业诗人的回答:

可以看到，新版Bard生成的代码没有问题，但是需要在前面加一个导入字符串才能运行。

幸运的是，这个bug很容易解决。

不过不知道是因为好奇的网友太多导致超负荷还是系统本身不稳定。

对于这个问题，巴德大部分时间都会“沉默”30秒，然后返回错误提示:“对不起，出了点问题，巴德还在实验阶段。”

GPT的答案——3.5:

GPT-4的答案:

相比之下，GPT-3.5和GPT-4 Turbo都提供了可以直接运行的非常简洁的代码。

赢家:毫无疑问，这一轮是ChatGPT阵营的大获全胜。

数学应用

接下来我每次都能打一个大的模型数学题。

标题:如果微软Windows 11采用3.5英寸软盘，需要多少张软盘？

棕榈吟游诗人的回答:

如你所见，原吟游诗人给出了一个非常离谱的答案。

不管Win11有没有21 GB，就算有，15.11软盘也装不下…

双子座职业诗人的回答:

在新版双子吟游诗人中，3472的结果显然被计算为1000MB。

但是，即使按照1000MB计算，直接计算得到的3472.2…也要改成3273。

毕竟，额外的数据显然无法四舍五入。

GPT的答案——3.5:propertydescriptor

GPT-3.5这边也差不多。首先估计Win11安装包的大小是“几GB”，然后四舍五入到20GB。

最后按照“1GB=1000MB”计算答案，放弃多出来的0.88…磁盘。

GPT-4的答案:

相比之下，只有GPT-4正确地使用了“1GB=1024MB”并将结果从3555.5…更改为35556。

从结果来看，双子Pro加持的巴德和GPT-3.5是半斤八两，而GPT-4不仅逻辑清晰，而且在计算中使用了“分析”来保证答案的正确性。

考虑到Gemini Pro的评估分数远高于GPT-3.5，这个结果有些令人失望。

赢家:谷歌和OpenAI的免费版机型可谓“不分上下”，而付费版GPT-4以压倒性优势胜出。

爸爸开玩笑

原创性的测试题目是:写5个原创爸爸笑话。

爸爸笑话是中年男人爱讲的一种笑话。简单幼稚，无聊莫名，含有谐音双关。这是一个毫无意义的冷笑话。女儿听到，经常给爸爸一个白眼。

但是因为下面的回答是从英文翻译过来的，所以中文翻译会失去一些谐音的趣味。

棕榈吟游诗人的回答:

双子座职业诗人的回答:

GPT的答案——3.5:

GPT-4的答案:

这个问题的本质在于答案的原创性。

但无论是Bard还是ChatGPT，给出的答案几乎都可以通过Google搜索找到，或者是在原答案的基础上稍微改写了模型。

而且，巴德和GPT-4有重复答案(一本关于反重力的书)，GPT-3.5和GPT-4有两个笑话(“科学家相信原子”和“稻草人获奖”)。

最有趣的答案来自《GPT 4》，讲了一个笑话，一个叫布莱恩的孩子是以托马斯·爱迪生的名字命名的。谷歌没有找到同样的笑话，但它发现了一个关于托马斯·杰斐逊的孩子名叫布莱恩的类似笑话。8813大写怎么写

赢家:这一轮可以算是平局。因为AI人写的段子几乎都不是原创…

事实检索

问题:谁发明了电子游戏？

棕榈吟游诗人的回答:

原吟游诗人答案中“拉尔夫·拜尔的棕色盒子和Magnavox奥德赛”的信息，好像是直接从维基百科上找到的。

双子座职业诗人的回答:

相比之下，新版《双子座吟游诗人》不仅简明准确地指出了威利·海金博塞姆早期《两个人的网球》的贡献。

此外，它还延伸到为电子游戏的早期发展做出巨大贡献的人，如诺兰·布什内尔、泰德·达布尼和阿尔·奥尔康，他们提供的信息是准确和相关的。

然而，后一个答案并不完美:它没有提到史蒂夫·乔布斯和史蒂夫·沃兹尼亚克在雅达利的工作，但对他们创造Apple II有一些不合逻辑的讨论。

GPT的答案——3.5:

虽然GPT-3.5提到“个人和公司多年来为这个行业做出了贡献”，但它没有提到任何重要人物的名字。

GPT-4的答案:

GPT-4说电子游戏的发明“不能归功于某个人”，然后提到了希金波坦、布什内尔，还有史蒂夫·罗素1962年的《泰之战空。

赢家:在自由模式中，巴德的答案比GPT好-3.5。但是最好的答案取决于GPT 4的付费版本。

创意写作

问题:写一个两段的关于亚伯拉罕·林肯发明篮球的故事。

棕榈吟游诗人的回答:

第一代吟游诗人在写作中包含了一些令人回味的句子，比如“林肯对自己微笑，因为他记得小时候玩过那个游戏”。

双子座职业诗人的回答:

相比之下，双子吟游诗人的文笔更为简洁，更注重主题。

但两个版本的巴德都没有按要求分成两段。

GPT的答案——3.5:

GPT-3.5的表现相当亮眼。这是唯一一个把林肯想象成一个年轻人，而不是坐在白宫里焦虑不安的总统的模型。

GPT-4的答案:

GPT-4是唯一明确提到林肯作为摔跤手经历的车型，而不是笼统地说他有运动能力。

更有趣的是，在GPT-4的故事中，林肯从白宫花园的一群孩子那里窃取了将球投进篮筐的概念。

获奖人:所有模特的文笔都有其独特的魅力和令人回味的句子，算是平局吧。

辩论对话

题目:写一篇大约在2000年的PowerPC处理器迷和Intel处理器迷之间的五行辩论。

棕榈吟游诗人的回答:

双子座职业诗人的回答:新城控股集团王振华辩护律师

可以看出，新版双子吟游诗人对第一代吟游诗人的回答进行了改进，尤其是在专业术语的选择上。

这些答案包括AltiVec指令、RISC和CISC设计、MMX技术，这些在2000年的Ars论坛讨论中并不矛盾。

GPT的答案——3.5:

GPT-4的答案:

不过ChatGPT显然表现更好。GPT 3.5中的答案很长，但在GPT 4中它被简化为一个更短更深刻的论证。

在他们的回应中，两人都避免了让普通观众感到困难的行话，而更注重“功能和兼容性”这一笼统的论点。缺点可能是对技术受众来说太笼统了。

赢家:ChatGPT成功地再现了辩论双方的观点，而不是依靠混淆视听的术语，所以ChatGPT赢了。

ChatGPT更好，但是差距在缩小。

可以看到，在数学、抽象、事实发现和创意写作的测试中，基于双子座的新版Bard相比八个月前有了显著的进步。

虽然根据上面非常主观的评价，ChatGPT还是占了上风。

但与今年4月的情况相比，双方的差距缩小了很多。

最后，我们期待在不久的将来看到像Gemini Ultra或OpenAI的神秘Q *技术这样的新模型如何应对这些任务。

参考资料:

本文来自微信微信官方账号:新智元(ID: AI _ ERA)。

未经允许不得转载：科技让生活更美好 » 谷歌 OpenAI 大模型巅峰对决！Gemini 激战 GPT-4，数学代码却惨遭碾压

谷歌 OpenAI 大模型巅峰对决！Gemini 激战 GPT-4，数学代码却惨遭碾压

超大杯还没来，大杯暂顶。

顶层模型的内部体积

代码编程

数学应用

爸爸开玩笑

事实检索

创意写作

辩论对话

ChatGPT更好，但是差距在缩小。

作者：pu

相关推荐