白交 西风 发自 凹非寺
量子比特|微信官方账号QbitAI
Anthropic刚刚宣布:克劳德3来了!罗永浩回应被解约
作为OpenAI的最强竞争对手,其此次发布的以最强版本Claude 3 Opus为代表的新模型家族“实现了接近人类的理解能力”—
在推理、数学、编码、多语言理解和视觉方面,它完全超越了包括GPT-4在内的所有大型模型,并直接重新确立了行业基准。
快速看一下这份成绩单很抢眼~
一些数学评估使用0杆超过GPT-4的4杆-8杆。
此外,以长窗口著称的Claude可以提供200K的上下文窗口并接受超过100万个代币。
双子座1.5 Pro:嗯?
目前,Claude Pro付费用户可以体验第二好的Sonnet和最强的Opus版本,但大模型竞技场也可以在白嫖使用。于是,网友们纷纷开始疯玩。(Doge)
此外,Opus和Sonnet还开放了API访问权限,开发者可以立即使用。
有人直接告诉艾特奥特曼:好了,你现在可以释放GPT 5号了。
但奥特曼可能仍在困扰马斯克的诉讼…
克劳德3家族有三款型号:小杯俳优、中杯Sonnet和大杯Opus,成本和性能依次增加。
首先在性能参数方面,克劳德3在多方面进行了全面提升。其中,Opus在MMLU、GPQA和GSM8K等评测基准中领先于所有其他型号:
在视觉能力方面,它可以处理各种视觉格式,包括照片、图表、图形和技术图表。
对于这样的业绩成绩,有专业人士表达了自己的看法。
例如,爱丁堡大学博士生、中国大型模型知识评估基准C-Eval的支持者之一付瑶表示,MMLU/GSM8K/HumanEval等基准已经严重饱和:所有模型的性能都一样。
他认为,模型性能基准的真正区别在于数学和GPQA。
此外,克劳德3在拒绝回答人类问题方面向前迈进了一大步,拒绝回答的可能性大大降低。
在上下文和记忆能力方面,他们使用大海捞针(NIAH)来评估测量大型模型从大量数据中准确回忆信息的能力。
结果Claude 3 Opus不仅取得了近乎完美的召回率,而且准确率也达到了99%以上。而且在某些情况下,它甚至可以认识到“针”句似乎是人为插入到原文中的,从而认识到评价本身的局限性。
它在生物知识和网络相关知识方面也取得了进展,但出于负责任的考虑,它仍处于AI安全级别2(ASL-2)。
其次,在响应时间方面,克劳德3已经大大缩短,以实现近实时性。
根据官方介绍,即将推出的小杯俳句可以在三秒钟内阅读和理解带有大约10k token图表的arXiv论文。
另一方面,中杯Sonnet在更高智能水平的基础上可以比Claude 2和Claude 2.1快一倍,它尤其擅长需要快速响应的任务,例如知识检索或自动化销售。
Opus的智能水平最高,但速度不减,与克劳德2和克劳德2.1相似。
官方对三款车型也有明确的定位。
价格方面,最便宜的小杯定价为0.25美元/100万代币输入,最贵的大杯定价为75美元/100万代币输入。
与GPT-4 Turbo相比,大杯的价格确实要高得多,这也表明AnthropicAI对这款车型有很大的信心。
第一手测量反馈
既然如此,那我们就先免费试用一下吧~
目前官方页面已经更新,Claude展示了“理解和处理图像”的功能,包括改进推荐风格、从图像中提取文本、将UI转换为前端代码、理解复杂方程、抄录手写笔记等。
OCR甚至可以准确识别具有时间感的模糊手写文档:
它在底部写着:您正在使用克劳德3 Sonnet,这是他们的第二大智能模型。
然而鹅,可能是因为人太多,试了几次都显示“失败”。
不过,网友们也做出了一些测试结果,比如请Sonnet解谜。
为其提供一些示例,并要求其找出数字之间的关系,例如“1dimetris 2Q3”,这意味着3是1和2相加的结果。
结果Sonnet成功地解决了-1.1加8等于6.9,因此“x”的值应为6.9:
一些网民发现Sonnet现在也可以读取ASCII代码,并高呼:这是GPT 4 ++的水平。
SONY A99II和尼康d850
在编程任务中,不管是谁写的代码,克劳德3号至少不会像GPT 4号那样懒惰。
也有玩家体验过opus,在网上为模型挖坑,但Opus只是完美地避免了被愚弄:
乍一看,效果还不错。这时,应该是Aite open ai:GPT-5在哪里?
好了,感兴趣的朋友可以戳下方链接体验一下啦~
https://claude.ai/
参考链接:
【1】https://www . anthropic . com/news/Claude-3-家庭
【2】https://Twitter . com/anthropic ai/status/1764653830468428150/photo/1
联想V570 开机屏不亮
未经允许不得转载:科技让生活更美好 » 全球最强大模型一夜易主,GPT-4被全面超越