国产大模型黑马诞生,千亿级拿下双榜第一!知识正确性能力突出,大幅降低LLM幻觉问题

声明:本文来自微信微信官方账号新智元(ID:AI_era),作者新智元,经授权站长之家转载发布。

【新智元简介】夸克也以大模型告终。夸克大模型一出,迅速登顶权威评测双榜,错觉率大大降低。可以预见,深受年轻人欢迎的夸克APP将会掀起一场新的飓风。

最近各大手机厂商和互联网公司都在全力发布大机型。

其中一匹黑马格外引人注目——

亿级在C-Eval和CMMLU两项权威评测中均获得第一名,而亿级在法律、医疗、问答等领域的性能评测中排名第一。

如此擅长人文社科,结合夸克之前的业务,阿里巴巴智能信息事业群为夸克大模型安排的这条路线已经逐渐清晰。

是的,答案是——做一般问答和专业搜索!

很受年轻人欢迎的夸克APP,是一款集搜索、使用、存储于一体的智能信息产品。有了夸克模型,这个过程可以智能升级。

效果如何?请看看-

搜索,健康,教育,办公,轻松持有。

Quark Big Model是一个面向应用的大模型,用于搜索、生产力工具和资产管理助手。应用场景包括通用搜索、医疗健康、教育学习、职场办公等。

搜索

目前的千亿参数模型已经可以在一些夸克端内测场景中提供服务。

例如,让它介绍《狂飙》的演员。答案不仅是演员阵容,还有剧中谁演了什么。

这个“光武盛世、开元盛世、贞观统治、文景统治是哪个朝代”的历史问题,尤其体现了夸克大模型的能力。

如果你问一个普通的搜索引擎,你是找不到这样一系列问题的。

反事实问题难度更大,因为它不仅能衡量模型学到的知识,还需要模型进行推理。

如果你问它,秦始皇喜欢骑什么牌子的摩托车?

会推断秦始皇是秦朝的人,摩托车是什么时候发明的,所以秦始皇没有机会骑摩托车,也没有喜欢的牌子。

以下中英文混合案例“in和on有什么区别”多轮对话已经到了可以自学英语的地步。

在多轮对话中,我们可以不断地要求它。

可以看出,夸克模型的答案在全面性和专业性上都比一般的搜索结果好很多。

健康

健康是夸克团队的关键方面。

搜索引擎的核心群体是健康群体,因为这个群体没有其他软件或APP提供良好的信息服务。

在健康方面,夸克团队做了大量的行业数据建设和知识建设,构建了完整的健康知识图谱。

此外,他们还构建了大量的医学百科、医学问答等面向C的数据,整理了大量的指南、标准和书籍。

在“如何预防流感”这个问题中,夸克模型已经回答了不同的方法,包括个人卫生、疫苗等等。同时会反映学到的知识点,并引用出处。

可见团队建立的知识在行业内是权威的,大模型也确实学过。

而且在理想情况下,模型不仅会回答健康的科普问题,还会有更好的推理能力。

“咳了三天,怎么了?」

如果在搜索引擎里问这个问题,是得不到丰富完整的信息的,因为咳嗽对应的疾病有很多。

夸克模型给出答案后,会有推理和反问。

界面会出现一个卡片,询问用户是否还有其他情况。提交后,大模型会根据当前症状给出更准确的疾病范围。

这个过程的核心是医学相关知识推理和医学知识的具体信息。

而且团队还在准备多模态模型,上传生化检验单后,可以为用户提供更准确的信息。

教育

在教育产品中,不仅要看你能不能回答,还要看你为什么能回答。

比如这道应用题,一个桶周长25米,深40厘米。这个桶有多少公斤水?

夸克模型回答时,不仅会列出解题过程,还会输出解题时会用到哪些公式,涉及到哪些关键知识点,比如各个单元的换算关系。

然后先求圆的面积,再算体积,然后得出最后的结果。

办公室

此外,夸克模型还可以变身为职场工作的神器。

比如一份关于销售演示技巧的PPT有8页,一页一页的看,要花很多时间。但只要上传文档,夸克大模型就能列出重点,大大提高效率。

在常见的文案中,夸克也做了几个小玩意。比如在网络名人露营地打卡的时候想发朋友圈,可以让AI写得有诗意。

国内大模特,学霸西+1

可以说,全栈开发的数千亿参数的夸克模型,是国内LLM班里妥妥的高手。

C-Eval是由清华大学、上海交通大学、爱丁堡大学联合构建的综合考试测评集,涵盖52个科目,是目前中国ai模型的权威测评榜单之一。

CMMLU由MBZUAI、上海交通大学和微软亚洲研究院联合推出,包含67个主题,专门用于评估中文语境下语言模型的知识和推理能力。

两份榜单的权威性毋庸置疑。

在评估过程中,夸克模型经过了数万个专业问题的检验,涵盖了几十个学科和不同的板块。无论是常识还是社会科学知识,夸克大模型都显示了处理复杂多层次问题的能力。

基于微调后的训练数据,夸克模型可以更好地理解问题的上下文、逻辑结构和语义关系,从而更全面、更深入地分析和解决问题。

在5471次现实生活的考试中,夸克大模型不仅成功超越了GPT-3.5,甚至有些分数还优于GPT-4。

45名受试者中,11名优秀(准确率≥80%),25名通过(准确率≥60%)。

综上所述,夸克大模型整体水平相当于GPT-3.5,但能更好的理解中文知识体系,写好文字。

在多语言翻译、代码编写、安全性和合规性、内容创作等领域。,是国内行业顶尖水平。

在多模态方面,夸克大模型支持相册搜索、AI相机场景下的文档搜索、图片生成图片、图片生成文本等。

从上面的演示可以看出,这些知识和创造能力之间,以及夸克产品之间,有着很强的对应关系。

夸克是专业打破大模型假象的。

错觉是大模型要做成产品必须解决的难题。

在蒋冠军看来,解决大规模模型应用的问题,首先要解决知识正确性的问题。

随着搜索技术能力的积累,团队在解决长期困扰大多数模型的错觉问题上具有相当大的优势。

能解决错觉问题,首先是因为夸克在寻找知识体系的整体积累。

在健康的情况下,错误率甚至可以降低到5%以下。能达到这么高的可用性,是因为很多搜索结果都是医生三审三校的结果。

在模型的前期训练中,数据规模越大,引入的错误知识就越多。这是一个悖论。因此,团队花费了大量的时间和精力来检查和调整数据的准确性。

为什么能成为学霸?

除了专门针对大规模模型的技术创新,夸克通过多年发展积累的四大优势也是培养这位“新学者”的动力。

1.综合数据

首先,夸克积累了40多个行业,几乎涵盖了中文的全部知识。

2.多语言知识

其次,在英语等其他语言方面,夸克凭借在通用搜索领域的深耕,积累了丰富的知识和数据。

对于大型模型来说,知识的理解、对齐和验证非常重要。夸克,依靠一般搜索的经验,在内容的理解上建立了非常完整的体系。

3.丰富的数据

第三,夸克具有高度的数据丰富性。

搜索引擎本身就是海量的网页数据,而在夸克数据库中,这个数字是几千亿。

这也意味着需要一个强大的工程系统来处理如此大规模的web数据,从而完成去重、分析等工作。这种能力非常好地匹配了大模型的需求——大模型需要大量的计算能力,而传统搜索引擎有大量的计算能力。

另外,对于搜索引擎来说,如何判断搜索结果的质量,如何在大量的站点中进行筛选,需要团队有一个高质量的评估和评价体系。而且这个系统也适用于大模型。

同样,在大规模模型和人类比对方面,传统搜索积累的经验也能更好地帮助团队。

4.人才库

其实一般搜索涵盖的范围非常广,包括网页搜索、图片搜索、视频搜索、文档搜索等等。支撑这些搜索功能的技术体系和人员,就是大模式所需要的多模式技术能力和人才体系。

在这方面,夸克有很深的积累。

夸克科技负责人蒋冠军

此外,夸克的生产和运输团队也拥有丰富的智能技术产品创新经验。这是因为夸克的目标是做个人工作学习的助手,所以所有的智能产品都是由技术驱动的。

至于业务层面,夸克不仅在健康、教育等重点行业有良好的数据积累,团队成员中也有医生、教师的经验。这些人才带来的第一手经验,对于构建大型模型所需的高质量SFT样本和专业知识非常重要。

5.知识增强

最后,quark还利用搜索和知识图谱文档的积累来增强自己大模型的知识,从而大大缓解了常见的错觉问题。

搜索,大型模型应用的最佳平台

自ChatGPT掀起大模式热潮以来,业界一直在不断探索。大模型的落地场景在哪里?

业内有一种观点认为,以搜索为代表的信息服务场景是大模型开发和应用的最佳平台。

在今年5月的I/O大会上,谷歌将生成式人工智能与其传统搜索服务相结合,发布了新的搜索生成体验(SGE)。

简单来说,谷歌将利用AI为搜索的内容提供解释,回答用户提出的问题,帮助用户制定旅行计划等等。

期间,用户不再需要货比三家,在多个链接之间来回跳转,也不必费力气去判断哪个链接是真的,因为所有可用的内容都集中在AI收集的回复中。

在最近的更新中,谷歌增加了允许SGE在AI生成的回复中附上图片和视频的功能,帮助用户更直观地了解自己的搜索知识和信息。

不仅如此,SGE的AI回复还会标注发布时间的链接,以支持AI生成的回复内容。如果用户对相关信息感兴趣,点击链接可以更全面地了解具体内容。

夸克大模型在夸克APP的落地是基于扎实的技术,贯穿了中国“大模型+搜索”的道路。

夸克的自我研究之路

夸克之所以能开发出自己的大模型,是因为发挥了自己在搜索引擎和数据方面的优势。

蒋冠军说,从几千亿的网页中筛选出几亿的优质网页是非常复杂的。不是搜索引擎厂商,完成这个任务成本和价格都很高。

首先,获取海量中文数据和知识本身是非常困难的。

其次,网页中有大量的垃圾数据。这时候就需要将行业数据和知识图谱的积累输入到大模型中作为补充。

第三个核心挑战是人类知识和SFT精确数据的一致性。真正有用的SFT样本数据是稀缺的,这需要各行各业有经验的人来做。

对此,夸克分两个阶段进行尝试。当第一版失败后,立即重组了新的专业团队,不仅包括资深从业者,还包括各行各业的外包人员。然后一步一步走到今天。

未来,夸克大模型将优先考虑通用问答、专业搜索等场景,充分满足年轻人自我提升和充电的需求。

在可预见的未来,会有更智能的下一代产品,让AI助手无处不在。

“AI时代已经到来,大模型应用的新体验临界点近在咫尺。」

随着自研大模型的全面升级,全新的夸克必然会给我们带来全新的惊喜。

未经允许不得转载:科技让生活更美好 » 国产大模型黑马诞生,千亿级拿下双榜第一!知识正确性能力突出,大幅降低LLM幻觉问题