超越GPT-4 Turbo,国产大模型首次排名榜首!商汤“日日新5.0”文科能力领跑

丁晓峰个人资料

5月21日,国内权威大型模型评测机构SuperCLUE正式发布商汤“逐日5.0 & quot(商量V5)中国基准评测结果,以80.03的优异总分创造了中国新纪录,并在中国综合得分方面超过了GPT-4-Turbo-0125。日立光驱驱动

值得注意的是,这是大型国产车型首次超越GPT-4 Turbo在SuperCLUE中国基准测试中登顶。

SuperCLUE综合评测基准四月评测集,2194个简答题,涵盖理科和文科两大能力,包括计算、逻辑推理、代码和长文本等十大基础任务。

在这次评测中,“逐日5.0 & quot它在各种能力上是平衡的,特别是在长文本、生成和创建、角色扮演、安全能力和工具使用方面。

关于文科的任务,“一天天5.0 & quot以82.20分获得国内外最高分,比GPT-4-Turbo-0125高出4.40分。其中,知识百科(82.4分)、长文(79.2分)、角色扮演(80.4分)、语义理解(81.6分)、生成式创作(79.4分)和传统安全(90.2分)。在科学任务中,他获得了76.78分,其中,计算(80.6分)、逻辑推理(73.8分)和工具使用(80.8分)均创下了全国最好成绩。

“逐日5.0 & quot采用混合专家架构(MoE),参数高达6000亿,支持200K上下文窗口。该模型的能力得到了显著提升,其背后是训练数据的全面升级和训练方法的有效改进,以及SenseCore计算设施和尚汤艾大型设备算法设计的联合优化。

网吧收费计时标准

具体来说,在数据方面,“逐日5.0 & quot采用新一代数据生产流水线,生产10T代币的高质量训练数据。与此同时,“天天5.0 & quot思维合成数据(数量级为千亿代币)也被大规模采用,这对提高模型在逻辑推理、数学和编程方面的能力起着关键作用。此外,“逐日5.0 & quot采用自主开发的多阶段培训环节,包括三阶段预培训、两阶段SFT和在线RLHF。通过在每个阶段设定更清晰和更集中的目标,可以实现更敏捷的调整,并避免不同目标之间的相互干扰。

作者:沈秋莎

文字:沈一莎图:受访者提供编辑:沈沙溢编审:任泉

转载本文请注明出处。

未经允许不得转载:科技让生活更美好 » 超越GPT-4 Turbo,国产大模型首次排名榜首!商汤“日日新5.0”文科能力领跑