它号称 ChatGPT 最强平替,大更新后表现如何|附体验链接

如果问目前最强的AI助手是哪个?毫无疑问,肯定是ChatGPT。

前不久ChatGPT意外崩溃,直接在网上爆了一大批重度用户。靠它完成作业的学生党,一时写不出论文,靠它“延续生命”的农民工,连工作都不想去。

ChatGPT今年每隔一段时间就会“猝死”,而号称是其最强替代者的克劳德可能就是你最靠谱的替代者。

上下文翻倍,克劳德2.1大更新。

无独有偶,克劳德最近也迎来了一次大更新。过去,Claude只能处理100,000个token(token是文本处理中的最小单位,如单词或短语),但现在Claude 2.1 Pro版可以处理高达200K K的上下文..

Anthropic官方称,200K context约等于15万字或500页文字,这意味着你可以上传代码库、财务报表或长篇文学作品,供Claude总结、提问、预测趋势、比较和对比多个文档。

那它对付中文的能力有多强?我们可以用之前备受争议的Yi-34B来做一个简单的说明。同版本发布支持200K超长上下文窗口,Yi-34B可以处理40万字左右的超长文本输入,大约相当于一个学者的长度。

在语言模型中,长上下文可以提供更准确的用法和含义,有助于消除歧义,帮助模型生成连贯准确的文本。比如“苹果”这个词出现在“摘水果”或者“新iPhone”上,意思完全不一样。

值得一提的是,在GPT-4恢复其实时联网功能之前,免费的克劳德可以访问网页链接并实时汇总网页内容。即使是现在,这也是GPT-3.5不具备的优势。

免费版的Claude还可以阅读、分析和总结你上传的文档。即使是GPT 4号,克劳德处理文件的表现也一点不空洞。

同时,我们给了克劳德和GPT-4一份90页的VR行业报告,问了同样的问题。

两者的响应速度没有区别,但免费版的克劳德回复更流畅,回答质量略高,而GPT-4的检索功能会受到分页和查看的限制,相当不“精神”。

检索只是一个笑话。作为提高学习或工作效率的工具,我们需要更智能的模型。当我让他们分析五年后VR行业的变化格局时,克劳德以逻辑分胜出,虽然表达的观点大同小异。

答案是肯定的,能不能答对才是关键。在过去的一年里,我们目睹了很多被大模特“满地址不明”骗走的伤心案例。Anthropic表示,Claude 2.1的错误或幻觉陈述减少了2倍,但它没有给出明确的数据,以至于NVIDIA科学家Jim Fan提出质疑:“实现0%幻觉的最简单解决方案是拒绝回答每一个问题。」

Anthropic还设计了很多陷阱题来测试克劳德2.1的诚实度。几轮结果显示,Claude 2.1在遇到知识盲点时,更喜欢不确定的表达方式来制造似是而非的答案来欺骗用户。

简单来说,克劳德2.1会真诚地说“我不确定广东的省会是不是哈尔滨”,如果它的知识图谱里没有这个储备的话,而不是斩钉截铁地说“广东的省会是哈尔滨”。

Claude Pro的订阅费约为20美元,使用量是免费版的5倍。普通用户可以发送的消息数量因消息长度而异。还剩10条消息时,克劳德会发出提醒。

假设你的对话是大约200个英语句子,每个句子15-20个单词,那么你每8小时至少可以发送100条消息。如果你上传一个像《了不起的盖茨比》那么大的文档,你可能只能在接下来的8小时内发送20条消息。

除了普通用户,Claude 2.1还根据开发者的需求推出了名为“工具使用”的测试功能,允许开发者将Claude集成到用户现有的流程、产品和API中。

换句话说,Claude 2.1可以调用开发者定制的程序函数或者使用第三方服务提供的API接口,可以从搜索引擎查询信息回答问题,连接私有数据库,从数据库中检索信息。

您可以定义一组工具供Claude使用并指定请求。然后,Claude将决定需要哪些工具来完成任务并代表它们执行操作,例如使用计算器进行复杂的数字推理,以及将自然语言请求转换为结构化的API调用。

Anthropic也做了一系列改进,更好地服务于Claude API的开发者。结果如下。

开发者控制台优化了体验和用户界面,使得基于Claude API的开发更加便捷。

新的提示(输入提示/问题)更容易测试,有利于模型的持续改进

让开发人员像在沙盒环境中一样反复尝试和纠正不同的提示。

您可以为不同项目创建多个提示,并快速切换它们。

对提示的修改会自动保存,便于回溯。

支持生成的代码集成到SDK中,应用到实际项目中。

此外,克劳德2.1还引入了“系统提示”的功能,这是一种为克劳德提供语境和指令的方式,可以让克劳德在角色扮演中更加稳定,而在对话中又不失个性和创造力。当然,与简单的提示应用不同,这个功能主要是为开发者和高级用户设计的,而且是在API接口中使用,而不是在网页上。

和克劳德2.0一样,克劳德2.1输入一百万令牌花费8美元,比GPT-4 Turbo便宜2美元,输出24美元,比GPT-4 Turbo便宜6美元。适用于低延迟、高吞吐量的Claude Instant版本,每一百万令牌的输入收费1.63美元,输出收费5.51美元。

ChatGPT杀手还是平板替代?

目前Claude 2.1虽然很强,但只能作为ChatGPT宕机的替代品,要颠覆ChatGPT还有很长的路要走。打个不太严谨的比方,克劳德2.1就像乞丐的GPT-4。

以克劳德2.1 Pro最好的200K为例。虽然Claude 2.1 Pro在理论处理能力上优于128K的GPT-4 Turbo,但实际结果表明,Claude 2.1 Pro在回忆和准确理解上下文的能力上仍然远远落后于GPT-4 Turbo。

OpenAI开发者大会结束后,网友Greg Kamradt测试了GPT-4-128K的情境回忆能力。使用保罗·格拉厄姆(美国著名程序员)的218篇文章,文本量为128K。他在这些文章的不同位置随机插入一段事实陈述(从前0%到后100%):“在阳光明媚的日子里,在多洛雷斯公园吃三明治是旧金山最好的活动。」

然后,他要求GPT-4涡轮模型检索这份事实陈述,并回答了关于这份事实陈述的相关问题。最后用业界常用的LangChain AI评测方法对给出的答案进行了评测。

▲绿色代表较高的检索精度,红色代表较低的检索精度。图片来自:@ laterspace2000

评测结果表明,GPT-4 Turbo在73K令牌长度内能够保持较高的存储精度。如果信息在文档的开头,无论上下文有多长,都可以检索到它。只有当要召回的信息在文档的10%-50%的范围内时,GPT-4 Turbo的准确性才开始下降。

相比之下,该网友也提前拿到了克劳德2.1 Pro的内测资格,也做了“大海捞针”的测试。根据评测结果,在长度为200,000 token(约470页)的文档中,像GPT-4 Turbo,Claude 2.1 Pro文档前面的信息不如后面的有效。

▲绿色代表较高的检索准确率,红色代表较低的检索准确率。

但Claude 2.1 Pro在24K之前的上下文长度效果更好,远低于GPT-4 Turbo的73K。24K后,克劳德2.1 Pro的内存性能开始明显下降,90K后效果变差,错误率大大增加。

可以看出,随着上下文长度的增加,GPT-4 Turbo和Claude 2.1 Pro的检测精度在逐渐降低。虽然克劳德2.1 Pro的测试覆盖了更广的上下文长度,但相比更实用的精度,GPT-4 Turbo仍然是克劳德2.1 Pro需要追赶的对象。

克劳德大概是自由版最强的大模特之一。如果你是作家,当ChatGPT崩溃时,堪比GPT-3.8的Claude可以解你燃眉之急,甚至表现更好。

而个性化GPT、DALL E3、语音通讯等功能都是ChatGPT不可多得的护城河。在强大的GPT-4 Turbo面前,升级后的克劳德2.1 Pro版本也已经被击败。

最后,放上克劳德的经历链接:https://claude.ai/login,如果ChatGPT再次崩溃,放松,至少你还有克劳德。

未经允许不得转载:科技让生活更美好 » 它号称 ChatGPT 最强平替,大更新后表现如何|附体验链接