它号称 ChatGPT 最强平替，大更新后表现如何|附体验链接-科技让生活更美好

如果问目前最强的AI助手是哪个？毫无疑问，肯定是ChatGPT。

前不久ChatGPT意外崩溃，直接在网上爆了一大批重度用户。靠它完成作业的学生党，一时写不出论文，靠它“延续生命”的农民工，连工作都不想去。

ChatGPT今年每隔一段时间就会“猝死”，而号称是其最强替代者的克劳德可能就是你最靠谱的替代者。

上下文翻倍，克劳德2.1大更新。

无独有偶，克劳德最近也迎来了一次大更新。过去，Claude只能处理100，000个token(token是文本处理中的最小单位，如单词或短语)，但现在Claude 2.1 Pro版可以处理高达200K K的上下文..

Anthropic官方称，200K context约等于15万字或500页文字，这意味着你可以上传代码库、财务报表或长篇文学作品，供Claude总结、提问、预测趋势、比较和对比多个文档。

那它对付中文的能力有多强？我们可以用之前备受争议的Yi-34B来做一个简单的说明。同版本发布支持200K超长上下文窗口，Yi-34B可以处理40万字左右的超长文本输入，大约相当于一个学者的长度。

在语言模型中，长上下文可以提供更准确的用法和含义，有助于消除歧义，帮助模型生成连贯准确的文本。比如“苹果”这个词出现在“摘水果”或者“新iPhone”上，意思完全不一样。

值得一提的是，在GPT-4恢复其实时联网功能之前，免费的克劳德可以访问网页链接并实时汇总网页内容。即使是现在，这也是GPT-3.5不具备的优势。

免费版的Claude还可以阅读、分析和总结你上传的文档。即使是GPT 4号，克劳德处理文件的表现也一点不空洞。

同时，我们给了克劳德和GPT-4一份90页的VR行业报告，问了同样的问题。

两者的响应速度没有区别，但免费版的克劳德回复更流畅，回答质量略高，而GPT-4的检索功能会受到分页和查看的限制，相当不“精神”。

检索只是一个笑话。作为提高学习或工作效率的工具，我们需要更智能的模型。当我让他们分析五年后VR行业的变化格局时，克劳德以逻辑分胜出，虽然表达的观点大同小异。

答案是肯定的，能不能答对才是关键。在过去的一年里，我们目睹了很多被大模特“满地址不明”骗走的伤心案例。Anthropic表示，Claude 2.1的错误或幻觉陈述减少了2倍，但它没有给出明确的数据，以至于NVIDIA科学家Jim Fan提出质疑:“实现0%幻觉的最简单解决方案是拒绝回答每一个问题。」

Anthropic还设计了很多陷阱题来测试克劳德2.1的诚实度。几轮结果显示，Claude 2.1在遇到知识盲点时，更喜欢不确定的表达方式来制造似是而非的答案来欺骗用户。

简单来说，克劳德2.1会真诚地说“我不确定广东的省会是不是哈尔滨”，如果它的知识图谱里没有这个储备的话，而不是斩钉截铁地说“广东的省会是哈尔滨”。

Claude Pro的订阅费约为20美元，使用量是免费版的5倍。普通用户可以发送的消息数量因消息长度而异。还剩10条消息时，克劳德会发出提醒。

假设你的对话是大约200个英语句子，每个句子15-20个单词，那么你每8小时至少可以发送100条消息。如果你上传一个像《了不起的盖茨比》那么大的文档，你可能只能在接下来的8小时内发送20条消息。

除了普通用户，Claude 2.1还根据开发者的需求推出了名为“工具使用”的测试功能，允许开发者将Claude集成到用户现有的流程、产品和API中。

换句话说，Claude 2.1可以调用开发者定制的程序函数或者使用第三方服务提供的API接口，可以从搜索引擎查询信息回答问题，连接私有数据库，从数据库中检索信息。

您可以定义一组工具供Claude使用并指定请求。然后，Claude将决定需要哪些工具来完成任务并代表它们执行操作，例如使用计算器进行复杂的数字推理，以及将自然语言请求转换为结构化的API调用。

Anthropic也做了一系列改进，更好地服务于Claude API的开发者。结果如下。

开发者控制台优化了体验和用户界面，使得基于Claude API的开发更加便捷。

新的提示(输入提示/问题)更容易测试，有利于模型的持续改进

让开发人员像在沙盒环境中一样反复尝试和纠正不同的提示。

您可以为不同项目创建多个提示，并快速切换它们。

对提示的修改会自动保存，便于回溯。

支持生成的代码集成到SDK中，应用到实际项目中。

此外，克劳德2.1还引入了“系统提示”的功能，这是一种为克劳德提供语境和指令的方式，可以让克劳德在角色扮演中更加稳定，而在对话中又不失个性和创造力。当然，与简单的提示应用不同，这个功能主要是为开发者和高级用户设计的，而且是在API接口中使用，而不是在网页上。

和克劳德2.0一样，克劳德2.1输入一百万令牌花费8美元，比GPT-4 Turbo便宜2美元，输出24美元，比GPT-4 Turbo便宜6美元。适用于低延迟、高吞吐量的Claude Instant版本，每一百万令牌的输入收费1.63美元，输出收费5.51美元。

ChatGPT杀手还是平板替代？

目前Claude 2.1虽然很强，但只能作为ChatGPT宕机的替代品，要颠覆ChatGPT还有很长的路要走。打个不太严谨的比方，克劳德2.1就像乞丐的GPT-4。

以克劳德2.1 Pro最好的200K为例。虽然Claude 2.1 Pro在理论处理能力上优于128K的GPT-4 Turbo，但实际结果表明，Claude 2.1 Pro在回忆和准确理解上下文的能力上仍然远远落后于GPT-4 Turbo。

OpenAI开发者大会结束后，网友Greg Kamradt测试了GPT-4-128K的情境回忆能力。使用保罗·格拉厄姆(美国著名程序员)的218篇文章，文本量为128K。他在这些文章的不同位置随机插入一段事实陈述(从前0%到后100%):“在阳光明媚的日子里，在多洛雷斯公园吃三明治是旧金山最好的活动。」

然后，他要求GPT-4涡轮模型检索这份事实陈述，并回答了关于这份事实陈述的相关问题。最后用业界常用的LangChain AI评测方法对给出的答案进行了评测。

▲绿色代表较高的检索精度，红色代表较低的检索精度。图片来自:@ laterspace2000

评测结果表明，GPT-4 Turbo在73K令牌长度内能够保持较高的存储精度。如果信息在文档的开头，无论上下文有多长，都可以检索到它。只有当要召回的信息在文档的10%-50%的范围内时，GPT-4 Turbo的准确性才开始下降。

相比之下，该网友也提前拿到了克劳德2.1 Pro的内测资格，也做了“大海捞针”的测试。根据评测结果，在长度为200，000 token(约470页)的文档中，像GPT-4 Turbo，Claude 2.1 Pro文档前面的信息不如后面的有效。

▲绿色代表较高的检索准确率，红色代表较低的检索准确率。

但Claude 2.1 Pro在24K之前的上下文长度效果更好，远低于GPT-4 Turbo的73K。24K后，克劳德2.1 Pro的内存性能开始明显下降，90K后效果变差，错误率大大增加。

可以看出，随着上下文长度的增加，GPT-4 Turbo和Claude 2.1 Pro的检测精度在逐渐降低。虽然克劳德2.1 Pro的测试覆盖了更广的上下文长度，但相比更实用的精度，GPT-4 Turbo仍然是克劳德2.1 Pro需要追赶的对象。

克劳德大概是自由版最强的大模特之一。如果你是作家，当ChatGPT崩溃时，堪比GPT-3.8的Claude可以解你燃眉之急，甚至表现更好。

而个性化GPT、DALL E3、语音通讯等功能都是ChatGPT不可多得的护城河。在强大的GPT-4 Turbo面前，升级后的克劳德2.1 Pro版本也已经被击败。

最后，放上克劳德的经历链接:https://claude.ai/login,如果ChatGPT再次崩溃，放松，至少你还有克劳德。

未经允许不得转载：科技让生活更美好 » 它号称 ChatGPT 最强平替，大更新后表现如何|附体验链接

它号称 ChatGPT 最强平替，大更新后表现如何|附体验链接

作者：pu

相关推荐