OpenAI 重夺竞技场第一：ChatGPT-4o 登顶，击败谷歌 Gemini-科技让生活更美好

OpenAI 开发者日新加坡站今天启幕，果不其然，ChatGPT 又出手了：

Gemini 刚在竞技场头把交椅上坐了不到一周，最新版 ChatGPT 轻轻一更新，第一再次易主。

对，还不是 o1 满血版，而是新版 4o。

具体来说，此番 GPT-4o 更新的是“创意写作能力”，官方说法是：

o1 核心贡献者 Karina Nguyen 对此做了进一步解释：

而在大模型竞技场的创意写作分榜上，可以看到新版 4o（ChatGPT-4o-1120）确实有明显的提升，分数从上个版本的 1365 提升到了 1402。

医疗网络营销软文

至于实际效果，我们简单测试了一下，看看你能给打个几分：超级够级 win7

重返第一，但 4o

除了在总榜上为 OpenAI 重夺第一，新版 4o 在体现具体能力的各个分榜上亦有提升。

风格控制旨在让榜单分数更真实地反映模型解决问题的能力，避免模型靠漂亮的格式、增加回答长度刷分。

总胜率热图显示，新版 4o 对上此前登顶的 Gemini-Exp-1114，胜率为 59%；对上 Claude 3.5 Sonnet，胜率为 69%；对上 5 月版本的 4o，更是在 72% 的情况下都能取胜。

嗯，看上去很强很不错，但还是那句话…… 是 4o。

结合今日份 DeepSeek 的大新闻 —— DeepSeek 版 o1 满血上线，还计划开源，不少网友直接在阿尔特曼“新的好模型来了”的推文下贴脸嘲讽起来：

龙之谷名字符号怎么打

简而言之就是：o1 满血版今年上线传得满城风雨，现在 2024 年都只剩下 40 几天了，OpenAI 你暗搓搓更新个 4o 是闹哪样！

还有人试图总结 OpenAI 的更新模式：

嗯，才不管你期待的是什么呢╭(╯^╰)╮

另外，还有网友拿新 4o 的生成结果去做了测试，结果系统还是当场判断出了 100% AI 写的：

不过，一片吐槽声中，也有人认真研究了一下 OpenAI 的更新。

比如，在系统提示词方面，大佬发现，OpenAI 确实偷偷给 ChatGPT 加了点料的：

简单来说，就是新增了一道护栏，确保 ChatGPT 不在敏感话题上胡说八道。

那么，如果你想试试新版 4o 具体能写出什么“创意”内容，现在可以到竞技场免费试试：

https://lmarena.ai/?leaderboard

有什么好玩的结果，欢迎回评论区分享给大伙儿~

参考链接：

本文来自微信公众号：量子位（ID：QbitAI），作者：鱼羊，原标题《OpenAI 重夺竞技场第一，但这波靠的是 4o》