当前位置：科技让生活更美好 > 科技 > 正文

全球最强大模型一夜易主，GPT-4被全面超越

pu 发布于 2024-03-05
分类：科技
阅读(47)

白交西风发自凹非寺

量子比特|微信官方账号QbitAI

Anthropic刚刚宣布:克劳德3来了！罗永浩回应被解约

作为OpenAI的最强竞争对手，其此次发布的以最强版本Claude 3 Opus为代表的新模型家族“实现了接近人类的理解能力”—

在推理、数学、编码、多语言理解和视觉方面，它完全超越了包括GPT-4在内的所有大型模型，并直接重新确立了行业基准。

快速看一下这份成绩单很抢眼~

一些数学评估使用0杆超过GPT-4的4杆-8杆。

此外，以长窗口著称的Claude可以提供200K的上下文窗口并接受超过100万个代币。

双子座1.5 Pro:嗯？

目前，Claude Pro付费用户可以体验第二好的Sonnet和最强的Opus版本，但大模型竞技场也可以在白嫖使用。于是，网友们纷纷开始疯玩。（Doge）

此外，Opus和Sonnet还开放了API访问权限，开发者可以立即使用。

有人直接告诉艾特奥特曼:好了，你现在可以释放GPT 5号了。

但奥特曼可能仍在困扰马斯克的诉讼…

克劳德3家族有三款型号:小杯俳优、中杯Sonnet和大杯Opus，成本和性能依次增加。

首先在性能参数方面，克劳德3在多方面进行了全面提升。其中，Opus在MMLU、GPQA和GSM8K等评测基准中领先于所有其他型号:

在视觉能力方面，它可以处理各种视觉格式，包括照片、图表、图形和技术图表。

对于这样的业绩成绩，有专业人士表达了自己的看法。

例如，爱丁堡大学博士生、中国大型模型知识评估基准C-Eval的支持者之一付瑶表示，MMLU/GSM8K/HumanEval等基准已经严重饱和:所有模型的性能都一样。

他认为，模型性能基准的真正区别在于数学和GPQA。

此外，克劳德3在拒绝回答人类问题方面向前迈进了一大步，拒绝回答的可能性大大降低。

在上下文和记忆能力方面，他们使用大海捞针（NIAH）来评估测量大型模型从大量数据中准确回忆信息的能力。

结果Claude 3 Opus不仅取得了近乎完美的召回率，而且准确率也达到了99%以上。而且在某些情况下，它甚至可以认识到“针”句似乎是人为插入到原文中的，从而认识到评价本身的局限性。

它在生物知识和网络相关知识方面也取得了进展，但出于负责任的考虑，它仍处于AI安全级别2（ASL-2）。

其次，在响应时间方面，克劳德3已经大大缩短，以实现近实时性。

根据官方介绍，即将推出的小杯俳句可以在三秒钟内阅读和理解带有大约10k token图表的arXiv论文。

另一方面，中杯Sonnet在更高智能水平的基础上可以比Claude 2和Claude 2.1快一倍，它尤其擅长需要快速响应的任务，例如知识检索或自动化销售。

Opus的智能水平最高，但速度不减，与克劳德2和克劳德2.1相似。

官方对三款车型也有明确的定位。

价格方面，最便宜的小杯定价为0.25美元/100万代币输入，最贵的大杯定价为75美元/100万代币输入。

与GPT-4 Turbo相比，大杯的价格确实要高得多，这也表明AnthropicAI对这款车型有很大的信心。

第一手测量反馈

既然如此，那我们就先免费试用一下吧~

目前官方页面已经更新，Claude展示了“理解和处理图像”的功能，包括改进推荐风格、从图像中提取文本、将UI转换为前端代码、理解复杂方程、抄录手写笔记等。

OCR甚至可以准确识别具有时间感的模糊手写文档:

它在底部写着:您正在使用克劳德3 Sonnet，这是他们的第二大智能模型。

然而鹅，可能是因为人太多，试了几次都显示“失败”。

不过，网友们也做出了一些测试结果，比如请Sonnet解谜。

为其提供一些示例，并要求其找出数字之间的关系，例如“1dimetris 2Q3”，这意味着3是1和2相加的结果。

结果Sonnet成功地解决了-1.1加8等于6.9，因此“x”的值应为6.9:

一些网民发现Sonnet现在也可以读取ASCII代码，并高呼:这是GPT 4 ++的水平。

SONY A99II和尼康d850

在编程任务中，不管是谁写的代码，克劳德3号至少不会像GPT 4号那样懒惰。

也有玩家体验过opus，在网上为模型挖坑，但Opus只是完美地避免了被愚弄:

乍一看，效果还不错。这时，应该是Aite open ai:GPT-5在哪里？

好了，感兴趣的朋友可以戳下方链接体验一下啦~

https://claude.ai/

参考链接:

【1】https://www . anthropic . com/news/Claude-3-家庭

【2】https://Twitter . com/anthropic ai/status/1764653830468428150/photo/1

联想V570 开机屏不亮

未经允许不得转载：科技让生活更美好 » 全球最强大模型一夜易主，GPT-4被全面超越

作者：pu

相关推荐

回顶部