商汤全球首发的这个功能，就连OpenAI都还没做到-科技让生活更美好

编辑:编辑部

【新智元简介】刚刚，全新升级的4.0车型发布了！不仅如此，商汤还抢先OpenAI推出了支持不同模态工具调用的助手API！现在，数以千万计的中国开发者可以轻松地玩“文生图”和“图文生”。

刚刚，商汤新一代“SenseNova 4.0”模型系统全面升级，多项任务性能已超越GPT-4。

同时，全球首个支持不同模态工具调用的助手API也于今日发布！

除了讨论大语言模型和“每秒画一张图”的大模型外，商汤还发布了大语言模型的数据分析版和“大医”的医疗版升级版，将LLM的通用能力推向了更多领域。同时，还有一款备受期待的多模态大型车型。

值得一提的是，商汤最新的助手API拥有多种内置工具。支持“文生图”和“图文生”的工具真的是世界第一，甚至OpenAI还做不到！

当我们将大模型与各种应用服务工具连接起来时，开发人员可以轻松拥有强大的AI助手，LLM“大脑”拥有“眼睛”和“手臂”。

现在，在商汤的SenseNova4.0平台上，国内开发者和用户可以在一个系统中轻松调用图形和文本的多模态能力。

新的SOTA模型+助手API可以轻松处理各种任务。

智能地图识别

图像理解是任何多模态模型的基本技能。

例如，乍一看，给模型提供路线图似乎是对OCR能力的测试。

事实上，如果你想正确回答这个问题，你不仅需要从图片中占较小比例的多个标志中提取字体，还需要推理，最终你可以判断如何走出黄石东路。

输入另一幅画，它会一眼认出这是一幅油画，并且它可以准确地描述作品中的各种细节，例如蝴蝶的动态和昆虫的颜色。

甚至基于上述特征，它可以进行深入分析并提供自己的评价供我们参考。

此外，在海报识别方面，它的表现也很出色——通过识别海报中的文字信息，可以确定海报的主题。

还可以快速分析与海报主题相关的信息，结合文字信息和视觉信息解读整张海报的氛围。adobephotoshopcs5怎么p图

服装方面，它也很不错，让你穿衣更有型。

当你问这件外套如何搭配时？

它会识别衣服的颜色和款式，并会提供适当的建议，“穿白色或浅色衬衫，选择黑色或深棕色裤子的底部，然后穿一双黑色皮鞋。”

多模态模型不仅可以读取氛围图，还可以读取表情包。

例如，一只猫盯着它的头，以及它背后传达的情绪和态度都可以被识别。

上传一张东方明珠的照片，它会给出详细的介绍。

图象生成

除了图像理解，文生地图功能还可以为你绘制这一场景的夜景。

在线检索

在线检索工具让我们有能力获取外部知识。

比如让它查询上海各区的最新人口数据，就能给出准确的回复。

数据分析

此外，可以通过对话分析文档和数据。

例如，作为产品经理，如果您想了解全球各种app的使用情况，您只需上传一个app使用数据的excel表格。

勤奋的小浣熊会立即在左侧对话框中生成相应的Python代码和所需的图表，并在右侧给出相应的分析结果。

无论是简单的折线图还是复杂的箱线图，都可以快速呈现。

此外，它还可以分析多个表之间的关系。比如看各个地方的水资源分布是否与他的人口数量有关。

不仅可以对多个表格文件进行关联分析，还可以进行多轮对话。如果你对图表的显示不满意，你也可以提出修改意见。

商汤日日新4.0发布。

显然，这些能力的实现有赖于强大的模型能力提供支撑。

目前，经过最新升级后，日清4.0的总体性能非常接近GPT-4的水平。

与上一版本相比，日日新4.0具有更全面的知识覆盖、更可靠的推理能力、更长的文本理解能力、稳定的数字推理能力和代码生成能力，并支持跨模态交互。

具体来说:

-代码能力在HumanEval编码评估中获得75.6分，超过了GPT-4Turbo的74.4分。

-多模态能力在MMBench评估中，整体性能超过GPT-4V（84.4分对74.4分）。

-代码解释器在数据分析领域以85.71%的准确率超过了GPT-4的84.62%。

-此外，还有一些垂直领域的功能，也可以超越GPT-4 Turbo。

-推理能力已达到GPT-4 Turbo的99%的水平。

咨询语言模型-Sensechat V4: 4K/32K/128K全面升级，测试结果与GPT-4相当。

我们可以看到，研究团队增加了约600B的中英文预训练语料tokens，包括商业共性、数学能力、K12考试和文献期刊数据，从而定性地提高了模型的理解能力和输出质量。

此外，还对模型进行了4次预训练，使模型在阅读理解、综合推理、代码能力等任务上实现了5%-10%的定向提升。

针对不同的使用场景，他们分别升级了4k、32k和128k四种上下文窗口模型的性能，并扩大了应用范围。

其中，商量-32k可以支持3万字以上的中文长文本摘要，整体能力平均达到GPT-4-32K的90%以上，并超越了理解能力。

“旗舰”商量-128k可以支持超过12万个中文长文本摘要，它的理解能力也超过了GPT-4。

在“大海捞针”实验中，128k和32k都取得了近乎完美的召回率，整体性能超过了GPT-4。

日清咨询语言模型-数据分析版本（商量-数据分析代码V4）

此外，商汤还增加了大型语言模型-数据分析版本和数据分析工具“Office浣熊”，可以理解各种表单和文档类型以及复杂的表单处理。

它可以支持上传各种格式的本地数据文件（如xls、xlsx、csv、txt、json等。）以及单表、多表、多文档类型、复杂表等不同数据场景。

结果表明，在1000+测试集上，该模型的准确率超过了GPT-4（85.71% vs 84.62%），能够满足国内中文理解能力较强的数据分析需求。

新的语言模型-sense chat-医疗版（商量-医疗V4）

在医疗场景中，“大医”实现了多轮对话和上下文理解能力的大幅提升。

它还可以有效地实现复杂医疗任务的专业医疗问答和推理，并且凭借丰富的工具调用能力，还可以支持更多模态医疗文档的智能解释和交互式问答。

在两项行业权威评估——2023年职业药师考试模型评估和中国医学语言模型开放评估平台MedBench中，“大易”综合得分排名第二，成绩接近GPT-4。

该成果超越了许多通用和医学开源大语言模型，体现了专业垂直领域非常高的落地性能。

2023年职业药师考试模式评价

中国医学语言模型开放评估平台MedBench。

商量-视觉V4:不仅“看”，而且“读”。

作为大规模模型发展的前沿，多模态大规模模型的能力直接决定了其在各行各业落地后解决实际问题的能力。

然而，商汤的图文多模态模型不仅在开放世界的视觉理解、描述、常识理解、抽象推理和多模态知识方面表现出色，而且具有无限接近人类水平的视觉感知能力。

可以看到，在权威综合基准MME Benchmark中，综合得分位居全球第一，展现了全球独一无二的视觉感知能力。

在分别评估中英文多模态能力的MMB-CN和MMB-EN中，总分均超过GPT-4V排名第一，在处理中英文场景的图形感知需求方面具有较强优势。

其中，评估集包括20个评估维度，从细粒度感知、单实例感知、跨实例感知、属性推理、关系推理和逻辑推理等方面对模型的多模态能力进行综合评估。

在涵盖认知、知识、OCR、空定向、语言生成和数学六大核心的MM-Vet中，也处于国内领先地位。

之所以能取得如此突出的多模态综合能力，首先是基于领先的单项能力。

首先，visual basic模型有60亿个参数，其性能与业界领先的Google ViT 22B相当，在许多任务中达到了行业SOTA。

其次，它还集成了大语言模型的优势，加强了图形和文本的跨模态能力。

具体来说，在模型的训练中，研究团队不仅开发了用于处理经典视觉任务（如分类、检测、分割、接地等）的通用视觉任务解码器。).

此外，针对开放式长尾任务，提出了一种通用长尾任务控制器，进一步扩展了多模态大模型的能力边界。

SenseMirage V4:细节质量大幅提升，实现电影般的质感。

在顶级图像绘制能力的基础上，二次绘制模型结合了语言模型对提示词的超强理解能力。

用户不需要描述图片的所有细节，只需提供图片的主要信息和基本用途，就可以生成电影海报级别的精美图像。

这样一来，既大大降低了图模型的使用门槛，又有效保证了在调用助手API时，能够做到“精准切分，所求即所得”。

具体而言，与上一版本相比，在高效的数据清洗策略下，图形对的数量增加到10亿+对，模型的参数也增加到数百亿。

他们进一步优化了模型的涡轮版本，结合了对抗性蒸馏，并实现了10倍的加速效果。

该模型采用文本专家、空间感知CFG等算法的混合，极大地提高了语义理解和图像纹理及细节表达能力。

助手API首次支持不同的模态工具调用。

对于开发人员和用户来说，这次更新和升级还带来了OpenAI以外的工具功能-

最新的新谈判语言模型&函数调用；Assistants API版本具有内置的图像生成、智能图像识别、数据分析（代码解释器）和在线检索工具。

这样一来，开发者在自己的应用中实现各种AI功能的门槛大大降低，API的调用效率也有了质的提升。

助手API的概念最早是由OpenAI提出的。去年11月，在第一届开发者大会上，萨姆·奥特曼为开发者发布了新的产品助手API，开始了测试阶段。任何拥有OpenAI API的人都可以使用它。

在现场，奥特曼介绍了助手API的功能:

-持续对话意味着开发人员不再需要担心如何处理长时间的历史对话。

-支持访问OpenAI管理的工具，如检索和代码解释器。

-支持第三方工具的函数调用。

函数调用是一种将助手API与外部工具和API连接起来的新方法。它允许模型输出请求调用函数的消息，包括被调用函数的信息和参数信息。

但遗憾的是，OpenAI助手API没有多模态功能，目前不支持DALL-E模型。

不同于单一的模型API调用（如图像API、GPT 4 Turbo、音频API），我们可以看到Assistants API已经具有模型、工具、检索等功能的集成，这可以为开发人员节省大量时间。

根据奥特曼的设想，“随着时间的推移，GPT和助手API将成为智能体的前身，未来它们将能够为我们做越来越多的事情。它不仅可以规划我们的生活，还可以执行更复杂的任务。”

商汤发布了全球首个支持不同模态工具调用的Assistants API，让理想比OpenAI提前一步实现。

与基础的聊天完成界面相比，商汤助手API的突出优势在于支持图文多模态交互，以及代码执行结果的直观呈现。

这些内置工具的综合应用使助手API能够通过多轮对话和多轮工具调用来解决更复杂的问题。

Assistants API不仅赋予大型模型识别图像、编写代码、执行互联网搜索和绘制图像的能力，还允许用户定制工具，进一步扩大了这个LLM“大脑”的操作范围。步步高家教机h8s多少钱一台

Assistants API的创新将推动商业技术格局的巨大变化。这种突破性的工具不仅是一种技术进步，而且为客户交互、流程自动化和决策提供了新的可能性。

-长背景，重新定义对话

Assistants API的一个核心特性是它提供了一种更结构化的方法来处理用户和大型模型之间的交互。

这是通过创建一个代表对话的“线程”来实现的。在这个线程上，可以传递特定于用户的上下文和文件，从而使对话更加个性化和连贯。

这个线程没有大小限制，可以向线程传递任意数量的消息，API将使用相关的优化技术来确保对模型的请求符合最大上下文窗口。

对于企业来说，每一次客户互动都可以作为历史对话保留下来，他们可以拥有完整的持续对话能力。

这种设计可以确保每个查询都能在上下文中被理解，从而产生更相关和更有见地的答案。

-创建量身定制的人工智能助手并改变交互方式。

此外，Assistants API的核心是增强企业、客户和数据之间的交互。

用户可以根据自己的需求定制人工智能助手-能够响应对话，执行复杂的数据分析或提供个性化的客户支持。

最重要的是，它提供了创建AI助手的简化流程，可以以前所未有的准确性理解和响应复杂的查询。

-代码解释器解决实时问题

对于需要处理数据或分析复杂数据的开发人员和企业来说，代码解释器可以使AI助手安全地执行Python代码，并将其转变为实时解决问题的强大工具。

-通过检索扩展应用知识。

该检索工具允许AI助手访问外部知识，提供预训练数据之外的内容，并丰富对特定信息的响应。容韵琳老公

可以看出，Assistants API不仅是一款AI工具，更是一项业务战略资产。

它提供了一个灵活且高度可定制的框架。开发人员可以通过结构化线程处理用户请求，并通过组合各种多模态工具和模型来提供响应。

它可以彻底改变客户服务，将复杂的任务自动化，并促进企业的洞察力决策和创新。

随着商汤“每日创新模式”升级至4.0，大语文模式、多模态模式、文生图模式全部完成新一轮进化。

超强的模型大脑，加上工具的调用能力，可以为开发者和企业打造定制化的开放应用，开拓全新的视野。

面向未来，大模式的根本在于重塑生产力模式。商汤正在做的是用全新的工具赋能技术研发。

未经允许不得转载：科技让生活更美好 » 商汤全球首发的这个功能，就连OpenAI都还没做到

商汤全球首发的这个功能，就连OpenAI都还没做到

作者：pu

相关推荐