新智元报道。
艺术经纬:埃涅阿斯太困了
【新智元简介】大模型巅峰对决,双子座和GPT-4展开大pk!代码和数学双子座被GPT-4碾压,但说到讲笑话和写作,它的答案出奇的好笑。
被谷歌寄予厚望的复仇杀手双子星能否如预期般单挑ChatGPT?
最近几天,外媒记者和网友发布了实测数据,对比了双子座Pro加持的新吟游诗人与GPT-3.5和GPT-4的性能。
先说成绩——chat GPT略胜一筹,但双子座进步很大。
虽然在宣传手段上有一些夸张的成分,但是谷歌确实依靠双子星在LLM大战中挽回了一些颓势。
而且双方都还在握着自己的杀手锏,真正的巅峰对决可能要等到Gemini Ultra或者整合了OpenAI神秘的Q *技术的新机型问世。
超大杯还没来,大杯暂顶。
需要强调的是,玩家Gemini Pro只是二哥,因为号称“在32项广泛使用的学术基准测试中击败GPT-4”的大哥Gemini Ultra还没有发布。
而且因为目前只用的是纯文本提示,所以用的是双子Pro。
因此,巴德暂时没有被赋予理解图像的能力,他仍然非常捉襟见肘…
资料来源:刘,马里兰大学博士生。
顶层模型的内部体积
早在4月份就有很多人做了巴德和PaLM支持的GPT-4的pk。当时的结果是GPT-4七战五胜,略胜巴德。
在这场决斗中,巴德4月份的成绩也被考虑在内,因此可以用来衡量谷歌最近几个月的进步。
虽然这些测试还不够全面,但它们也提供了一个很好的基准来判断这些AI聊天助手在普通用户日常任务中的表现。
话不多说,现在就开始!
代码编程
既然谷歌这次吹了全新的AlphaCode 2,那我们先来看看他们的编程水平。
标题:写一个python脚本,说“Hello World然后无休止地创建一个随机重复的字符串。
棕榈吟游诗人的回答:
首先,最初的吟游诗人非常粗糙,无法生成代码。
然而,谷歌后来在6月份给它添加了这一功能。(但是这个题目没有测试过。)
双子座职业诗人的回答:
可以看到,新版Bard生成的代码没有问题,但是需要在前面加一个导入字符串才能运行。
幸运的是,这个bug很容易解决。
不过不知道是因为好奇的网友太多导致超负荷还是系统本身不稳定。
对于这个问题,巴德大部分时间都会“沉默”30秒,然后返回错误提示:“对不起,出了点问题,巴德还在实验阶段。”
GPT的答案——3.5:
GPT-4的答案:
相比之下,GPT-3.5和GPT-4 Turbo都提供了可以直接运行的非常简洁的代码。
赢家:毫无疑问,这一轮是ChatGPT阵营的大获全胜。
数学应用
接下来我每次都能打一个大的模型数学题。
标题:如果微软Windows 11采用3.5英寸软盘,需要多少张软盘?
棕榈吟游诗人的回答:
如你所见,原吟游诗人给出了一个非常离谱的答案。
不管Win11有没有21 GB,就算有,15.11软盘也装不下…
双子座职业诗人的回答:
在新版双子吟游诗人中,3472的结果显然被计算为1000MB。
但是,即使按照1000MB计算,直接计算得到的3472.2…也要改成3273。
毕竟,额外的数据显然无法四舍五入。
GPT的答案——3.5:propertydescriptor
GPT-3.5这边也差不多。首先估计Win11安装包的大小是“几GB”,然后四舍五入到20GB。
最后按照“1GB=1000MB”计算答案,放弃多出来的0.88…磁盘。
GPT-4的答案:
相比之下,只有GPT-4正确地使用了“1GB=1024MB”并将结果从3555.5…更改为35556。
从结果来看,双子Pro加持的巴德和GPT-3.5是半斤八两,而GPT-4不仅逻辑清晰,而且在计算中使用了“分析”来保证答案的正确性。
考虑到Gemini Pro的评估分数远高于GPT-3.5,这个结果有些令人失望。
赢家:谷歌和OpenAI的免费版机型可谓“不分上下”,而付费版GPT-4以压倒性优势胜出。
爸爸开玩笑
原创性的测试题目是:写5个原创爸爸笑话。
爸爸笑话是中年男人爱讲的一种笑话。简单幼稚,无聊莫名,含有谐音双关。这是一个毫无意义的冷笑话。女儿听到,经常给爸爸一个白眼。
但是因为下面的回答是从英文翻译过来的,所以中文翻译会失去一些谐音的趣味。
棕榈吟游诗人的回答:
双子座职业诗人的回答:
GPT的答案——3.5:
GPT-4的答案:
这个问题的本质在于答案的原创性。
但无论是Bard还是ChatGPT,给出的答案几乎都可以通过Google搜索找到,或者是在原答案的基础上稍微改写了模型。
而且,巴德和GPT-4有重复答案(一本关于反重力的书),GPT-3.5和GPT-4有两个笑话(“科学家相信原子”和“稻草人获奖”)。
最有趣的答案来自《GPT 4》,讲了一个笑话,一个叫布莱恩的孩子是以托马斯·爱迪生的名字命名的。谷歌没有找到同样的笑话,但它发现了一个关于托马斯·杰斐逊的孩子名叫布莱恩的类似笑话。8813大写怎么写
赢家:这一轮可以算是平局。因为AI人写的段子几乎都不是原创…
事实检索
问题:谁发明了电子游戏?
棕榈吟游诗人的回答:
原吟游诗人答案中“拉尔夫·拜尔的棕色盒子和Magnavox奥德赛”的信息,好像是直接从维基百科上找到的。
双子座职业诗人的回答:
相比之下,新版《双子座吟游诗人》不仅简明准确地指出了威利·海金博塞姆早期《两个人的网球》的贡献。
此外,它还延伸到为电子游戏的早期发展做出巨大贡献的人,如诺兰·布什内尔、泰德·达布尼和阿尔·奥尔康,他们提供的信息是准确和相关的。
然而,后一个答案并不完美:它没有提到史蒂夫·乔布斯和史蒂夫·沃兹尼亚克在雅达利的工作,但对他们创造Apple II有一些不合逻辑的讨论。
GPT的答案——3.5:
虽然GPT-3.5提到“个人和公司多年来为这个行业做出了贡献”,但它没有提到任何重要人物的名字。
GPT-4的答案:
GPT-4说电子游戏的发明“不能归功于某个人”,然后提到了希金波坦、布什内尔,还有史蒂夫·罗素1962年的《泰之战空。
赢家:在自由模式中,巴德的答案比GPT好-3.5。但是最好的答案取决于GPT 4的付费版本。
创意写作
问题:写一个两段的关于亚伯拉罕·林肯发明篮球的故事。
棕榈吟游诗人的回答:
第一代吟游诗人在写作中包含了一些令人回味的句子,比如“林肯对自己微笑,因为他记得小时候玩过那个游戏”。
双子座职业诗人的回答:
相比之下,双子吟游诗人的文笔更为简洁,更注重主题。
但两个版本的巴德都没有按要求分成两段。
GPT的答案——3.5:
GPT-3.5的表现相当亮眼。这是唯一一个把林肯想象成一个年轻人,而不是坐在白宫里焦虑不安的总统的模型。
GPT-4的答案:
GPT-4是唯一明确提到林肯作为摔跤手经历的车型,而不是笼统地说他有运动能力。
更有趣的是,在GPT-4的故事中,林肯从白宫花园的一群孩子那里窃取了将球投进篮筐的概念。
获奖人:所有模特的文笔都有其独特的魅力和令人回味的句子,算是平局吧。
辩论对话
题目:写一篇大约在2000年的PowerPC处理器迷和Intel处理器迷之间的五行辩论。
棕榈吟游诗人的回答:
双子座职业诗人的回答:新城控股集团王振华辩护律师
可以看出,新版双子吟游诗人对第一代吟游诗人的回答进行了改进,尤其是在专业术语的选择上。
这些答案包括AltiVec指令、RISC和CISC设计、MMX技术,这些在2000年的Ars论坛讨论中并不矛盾。
GPT的答案——3.5:
GPT-4的答案:
不过ChatGPT显然表现更好。GPT 3.5中的答案很长,但在GPT 4中它被简化为一个更短更深刻的论证。
在他们的回应中,两人都避免了让普通观众感到困难的行话,而更注重“功能和兼容性”这一笼统的论点。缺点可能是对技术受众来说太笼统了。
赢家:ChatGPT成功地再现了辩论双方的观点,而不是依靠混淆视听的术语,所以ChatGPT赢了。
ChatGPT更好,但是差距在缩小。
可以看到,在数学、抽象、事实发现和创意写作的测试中,基于双子座的新版Bard相比八个月前有了显著的进步。
虽然根据上面非常主观的评价,ChatGPT还是占了上风。
但与今年4月的情况相比,双方的差距缩小了很多。
最后,我们期待在不久的将来看到像Gemini Ultra或OpenAI的神秘Q *技术这样的新模型如何应对这些任务。
参考资料:
本文来自微信微信官方账号:新智元(ID: AI _ ERA)。
未经允许不得转载:科技让生活更美好 » 谷歌 OpenAI 大模型巅峰对决!Gemini 激战 GPT-4,数学代码却惨遭碾压