超越GPT-4 Turbo，国产大模型首次排名榜首！商汤“日日新5.0”文科能力领跑-科技让生活更美好

丁晓峰个人资料

5月21日，国内权威大型模型评测机构SuperCLUE正式发布商汤“逐日5.0 & quot（商量V5）中国基准评测结果，以80.03的优异总分创造了中国新纪录，并在中国综合得分方面超过了GPT-4-Turbo-0125。日立光驱驱动

值得注意的是，这是大型国产车型首次超越GPT-4 Turbo在SuperCLUE中国基准测试中登顶。

SuperCLUE综合评测基准四月评测集，2194个简答题，涵盖理科和文科两大能力，包括计算、逻辑推理、代码和长文本等十大基础任务。

在这次评测中，“逐日5.0 & quot它在各种能力上是平衡的，特别是在长文本、生成和创建、角色扮演、安全能力和工具使用方面。

关于文科的任务，“一天天5.0 & quot以82.20分获得国内外最高分，比GPT-4-Turbo-0125高出4.40分。其中，知识百科（82.4分）、长文（79.2分）、角色扮演（80.4分）、语义理解（81.6分）、生成式创作（79.4分）和传统安全（90.2分）。在科学任务中，他获得了76.78分，其中，计算（80.6分）、逻辑推理（73.8分）和工具使用（80.8分）均创下了全国最好成绩。

“逐日5.0 & quot采用混合专家架构（MoE），参数高达6000亿，支持200K上下文窗口。该模型的能力得到了显著提升，其背后是训练数据的全面升级和训练方法的有效改进，以及SenseCore计算设施和尚汤艾大型设备算法设计的联合优化。

网吧收费计时标准

具体来说，在数据方面，“逐日5.0 & quot采用新一代数据生产流水线，生产10T代币的高质量训练数据。与此同时，“天天5.0 & quot思维合成数据（数量级为千亿代币）也被大规模采用，这对提高模型在逻辑推理、数学和编程方面的能力起着关键作用。此外，“逐日5.0 & quot采用自主开发的多阶段培训环节，包括三阶段预培训、两阶段SFT和在线RLHF。通过在每个阶段设定更清晰和更集中的目标，可以实现更敏捷的调整，并避免不同目标之间的相互干扰。

作者:沈秋莎

文字:沈一莎图:受访者提供编辑:沈沙溢编审:任泉

转载本文请注明出处。

未经允许不得转载：科技让生活更美好 » 超越GPT-4 Turbo，国产大模型首次排名榜首！商汤“日日新5.0”文科能力领跑

超越GPT-4 Turbo，国产大模型首次排名榜首！商汤“日日新5.0”文科能力领跑

作者：pu

相关推荐