1月30日,上海人工智能实验室发布开源开放评测系统新浪(OpenCompass2.0)。同时,基于对一些主流大型车型的评估和诊断,它公布了大型车型的年度评估名单,并提到了国产大型车型的优势和不足。
根据评估,复杂推理能力是大型模型的普遍问题,而国产大型模型与GPT-4之间仍有差距,这是大型模型在金融、工业和其他要求可靠性的场景中落地的关键能力。然而,在中国的场景中,中国最新的大模型显示出独特的优势,尤其是在语言和知识维度上接近GPT-4 Turbo的水平。
在客观评价能力的排名上,总体来说,大语言模型的整体能力仍然有很大的提高空。在采用百分制的客观评估基准中,GPT-4 Turbo(GPT-4的升级版)在所有评估中取得了最佳表现,仅达到61.8分的及格水平。
OpenCompass2.0的分析结果显示,许多国内制造商最近发布的型号正在迅速缩小与GPT-4 Turbo在多个能力维度上的差距,包括GLM-4、阿里巴巴Qwen-Max和百度文心一言4.0的排名,这反映出这些新型号具有更均衡和全面的性能。
索尼最新款手机2013
值得一提的是,本次大模型排名并未囊括所有大模型企业,且迭代时间不尽相同。根据上海人工智能实验室的数据,更多的公司正在陆续发布新的大模型,一些公司计划在不久的将来发布新版本。所有这些新的大模型都将进入下一个列表。
根据客观评估结果,一些大型车型的得分接近GPT-4 Turbo,但这并不意味着国产大型车型与GPT-4 Turbo的差距很小。来自上海人工智能实验室的年轻科学家陈凯向第一财经解释说,分数是由不同的维度组成的,国产大模型和GPT-4 Turbo在不同的维度上有不同的表现。有些维度比如知识和语言可能会有来有回,有些维度比如推理还是有一定差距的,评价本身也会有局限性。
“什么样的问题会与众不同地考察知识的边界?如果有竞赛题,可能会有0分和100分。如果有高考题,可能是一个80,一个90 .”陈凯说,评价是一种笼统的比较。作为综合评价,难度会相对均衡。尽管国产大型模型与GPT-4的差距正在缩小,但我们不能忽视的是,我们在复杂推理场景中取得了巨大进步。
从具体指标来看,各大车型的能力可能比较全面。OpenCompass2.0有客观评价和主观评价,大致类似于考试中的客观题和主观题。总的来说,它从语言、知识、创造、推理、数学、代码、智能体等方面评估大模型的能力。图中能力项的颜色条越长,能力越高。
random_shuffle不能用
测评显示,推理、数学、代码和智能体是国产大模型的短板。尽管GPT-4 Turbo在涉及复杂推理的场景中也有所改进空,但它显然领先于国内商业模型和开源模型。要在整体上赶上GPT-4 Turbo等国际顶级大车型,国产大车型仍需在复杂推理和可靠解决复杂问题方面做出巨大努力。
复杂的推理将如何影响大型模型的能力?上海人工智能实验室首席科学家林达华向第一财经介绍,这与大模型应用于地面时的可靠性有关。例如,在金融场景中,数字不能有错误,这将对数学可靠性有更高的要求。此外,随着大规模模型进入商业市场,如果要分析一家公司的财务报告,甚至是工业领域的一些技术文档,那么数学计算能力将成为障碍。
“现在很多大模型的应用场景是客服、聊天等。在聊天场景中,严肃的废话影响不大,但在非常严肃的商务场合很难落地。”林达华说。
与GPT-4 Turbo相比,国产大车型也有一些优势。例如,在主观评价中,国产车型在中文场景下与海外车型相比具有性能优势,国产商业车型在中文语言理解、中文知识和中文创作方面与GPT-4 Turbo相比极具竞争力,甚至有些车型在某些维度上已经超过了GPT-4 Turbo。人间有真情人间有真爱是哪个节目
作为大规模模型评估系统,OpenCompass于2023年7月推出。它是Meta官方推荐的四种评估工具之一,也是唯一由中国机构开发的工具。林达华介绍,评价体系借鉴了高考的经验。评估时,这些模型主题不会公开,这将防止一些模型在主题上“刷题”,从而作弊。最后,高考成绩在某种意义上是相对公平的评价。榜单发布时,本期榜单的标题将予以公开,以便相关方面核实评估分数。
林达华认为,关于评价,排名可能不是最需要关注的。榜单排名的高低并不能真正反映大模特的能力。评估的真正价值是帮助机构和企业找到其大模型进一步需要努力的方向。
未经允许不得转载:科技让生活更美好 » 国内大模型与GPT-4较高下:语言知识能力接近,复杂推理仍是短板