开源大世界,谁来打好大模型的地基?

一般的大模型就像是大模型行业的地基,地基的深度和强度会决定建筑的高度。

文|周湘月

编辑|赵

11月29日,第四届人工智能计算大会(AICC 2023)在北京长安街商圈某酒店召开。

今年很热闹。众多大型模型公司和科技公司,包括百度、智普AI、百川智能、网易福喜、吉利汽车等。,齐聚一堂,共同探讨AI计算技术的趋势和AIGC的创新成果。国际数据公司IDC和浪潮信息联合发布了《2023-2024年中国人工智能计算力发展评估报告》。

报告显示,国内已有67%的企业开始探索生成式人工智能在企业中的应用机会或进行相关资金投入。其中,中国企业尤其认可生成式人工智能在加速决策、提高效率、优化用户和员工体验方面的价值,并将在未来三年持续加大投入,超过70%的企业增速在20%至40%之间。

随着越来越多的企业在生成式人工智能和大模型探索和投资,通用大模型的能力也在不断被强调。一个共识是,一般的大模型就像是大模型行业的地基,地基的深度和强度会决定建筑的高度。

底层大模型厂商都在为此努力。就在本次会议前两天,浪潮信息刚刚发布了“源2.0”基础模型,全面开放了1026亿、518亿、21亿三个参数规模的模型。

据悉,这是业界首个完全开源并可商用的千亿大模型,也是目前国内最大的综合性开源大模型。最后一个在国内“最大参数开源模型”记录中留下名字的是阿里。当时,阿里集团CEO武勇明在2023年世界互联网大会上宣布,阿里将开放720亿个参数化模型。

在未来大模式的道路上,继续拓宽行业的同时打好基础仍然是重中之重。

01

大模式在路上,发展路径争鸣

虽然今年大模式真的爆发了,但是行业对这一块的探索其实已经是经过几轮思考后沉淀总结出来的。一位资深业内人士向数字智能前沿描述了大模型发展的几个阶段:

从2018年Google发布拥有3亿参数的BERT预训练模型开始,AI的大模型时代已经开启,包括OpenAI、Google、微软、Nvidia等国外玩家,以及浪潮信息、百度、阿里、腾讯等国内巨头,都纷纷投入巨资进行相关探索。

最初几年,大家的关注点都是拼参数。“每个家庭都要去吉尼斯。你做一千亿,它就做万亿。”尤其是2020年5月,OpenAI发布了拥有1750亿个参数的GPT-3。大模型参数规模首次提升到千亿后,各种千亿、万亿的大模型层出不穷,让人眼花缭乱。在对外宣传方面,各家的提法也很统一,都在强调自己的“最大”。

这期间,更大的参数带来的智能的出现和泛化能力让很多人惊讶,但同时也暴露出一些问题。比如,当一个大型模型真正落入智能计算中心进行工程化时,往往会遇到计算能力支撑的巨大考验。再加上正常的技术商业化路径,大家普遍开始进入第二阶段:探索应用什么样的场景。

“有的做知识领域的技能模型,有的直接做行业的场景模型。”大模型走向行业和领域应用的路径是什么?大家都在想。

比如2022年5月,百度一口气发布了十大模型,既有结合工业场景的行业模型,也有知识增强的任务模型。

2022年年中,浪潮信息还推出了基于“元1.0”基础模型的四大技能模型——对话模型“元小文”、问答模型“元小搜”、翻译模型“元小文”、古文模型。

但这些探索和尝试只能算是“小规模”的中间产品,尚未在外界引起轰动。有些人后来过早地反思和应用领域模型和场景模型,实际上牺牲了一些泛化能力。直到ChatGPT的横版空的诞生,才真正引爆了这股大模型热潮。行业内各种思潮开始迅速活跃起来。

根据IDC的报告,目前中国已有67%的企业开始探索生成式人工智能在企业中的应用机会或进行相关的资金投入。具体到应用场景,知识管理、对话式应用、销售与营销、代码生成等。是全球企业应用生成式人工智能的主要场景。

在过去的几个月里,一些大模型的先锋用户也根据自己的实践形成了自己独特的路线和方向。大模型还是个新生事物,大家看法不一。

很多企业通过对行业大模型的微调,试图在某些场景下做一个大模型。然而,一些企业并不认同大工业模式。

在航空旅行领域,中国航空的一位工程师告诉数字情报前线,他们希望基于基础的大模型,建立一个民航的智能服务平台,而不是一个经过知识修剪的行业大模型。这背后的思路是,一般大模型的能力会随着参数的扩展而升级,但行业模型是基于一般模型的一个版本,通过馈入相应的专业数据来训练的。通常基础大模型会升级其参数,而行业模型很难同步,不利于模型的智能化水平。

一些企业也在不断反思行业落地和基础模式的业绩提升如何齐头并进。一位大模型产业链企业人士告诉数智,行业内大模型的落地速度其实落后于他们年初的预期,很大一部分原因是因为国内的基础大模型还不够成熟,性能还有待提升。

11月初,GPT-4 Turbo在街上发布,加深了行业对大车型基础能力提升的迫切性。“现在最可怕的是OpenAI在开发者大会上展示的能力,拉大了我们和GPT-4的差距。”浪潮信息高级副总裁刘军表示,如何不断缩小这一差距,甚至在未来超越,是国内大模型行业面临的核心问题。

刘军认为,人工智能行业将快速增长,但只有当这个行业足够强大时,每个参与者才能获得更大的蛋糕。所以国内大模特从业者首先要做的就是把蛋糕做大。这其中的一个核心就是提高基础大模型的能力。这就好比人才教育的过程。大多数情况下,只有具备强大的基础能力和素质,才能在不同的专业和行业做得更好。否则客户体验很差,商业模式很难转向。这也是浪潮信息选择全面开源“源2.0”基础模式的原因之一。

02

基础大款怒放

浪潮信息人工智能软件R&D总监吴少华对《数字情报前线》表示,去年11月ChatGPT发布后,虽然其全新的能力让业界大为震惊,但其方法是有迹可循的。“通过source 1.0+强化学习,我们很快赶上,做出了ChatGPT这样的系统,内部不断迭代完善。”

“GPT-4释放后,我们重新审查了原来的方案,一直在思考一个问题。什么样的技术实现了非常强的基础模型能力?”这些思考都落在浪潮信息11月27日发布的最新源码2.0上。

“源码2.0”不仅在数理逻辑、代码生成、知识问答、汉英翻译、理解和生成等方面的能力有了显著提升,还针对行业在算法、数据、计算能力等方面的普遍痛点提出了三大创新。

在算法方面,Source 2.0提出并采用了一种新的注意力算法结构:基于本地化过滤的注意力(LFA)。

与传统Transformer的“捕捉全局信息和长期依赖信息的能力”不同,LFA具有“捕捉局部信息和短期依赖信息的能力”,使模型更准确地把握上下文之间的强语义关联,学习人类语言范式的精髓。

比如把“我想吃中餐”这句话输入到模型中,会先分段——我/想/吃/中国/食物/,而传统的注意力会把这六个token一视同仁。但在自然语言中,“中国”和“蔡”其实有更强的关联性和地方依赖性。LFA通过先学习相邻词之间的相关性,再计算全局相关性,来学习自然语言的局部和全局语言特征,从而提高模型精度。

“我们对大模型结构的有效性进行了消融实验,与传统的注意结构相比,LFA模型的准确率提高了3.53%。”吴玉华说。在最终的模型训练中,最大的参数只有source 2.0的1026亿,相比source 1.0的2457亿个参数,用LFA算法训练同样的令牌数,可以减少28%。训练的损失曲线越小,大模型学习训练集的特征就越好。

数据是另一个被强调的方面。刘军告诉数字智能前线,粗放式管理的特征很明显,“看起来,如果我们给它足够的数据,只要我们不断用计算能力训练它,我们最终可以提炼黄金。”但炼金术实际上需要高质量的金矿才能产出更多的纯金。

后来大家都注意数据清洗,但是要得到高质量的数据集并不容易。比如Source 1.0,使用的数据大部分来自互联网。浪潮信息采取了很多手段进行净化,才从800多TB的数据中清洗出了5TB的优质数据集。

尤其是数学、代码等高质量数据的获取更加困难。吴少华透露,为了获取中文数学数据,他们从2018年到现在,清洗了大约12PB的互联网数据,但只得到大约10GB的数学数据,质量分析仍然不够高,投入巨大,收益很小。

由此,此次推出的Source 2.0在训练数据源、数据增强、合成方法等方面进行了创新。一方面,通过引入大量中英文书籍、百科全书、论文等优质中英文资料,降低了互联网语料库内容的比重;另一方面,使用大语言模型作为训练数据生成器,提高每个类别中的数据质量,获得一批高质量的数学和代码预训练数据。

在计算能力方面,Source 2.0采用了非均匀流水线并行的方法,综合运用了流水线并行+优化器参数并行+数据并行的策略,使得模型在流水线并行各阶段的内存占用分布更加均衡,避免了内存瓶颈导致的训练效率降低的问题,从而降低了大型模型对节点内芯片间通信带宽的需求,使其能够在硬件差异较大的训练环境中实现高性能训练。

“相当于给你一条高速公路,以每公里200公里的速度跑,但是给你一条窄路也能跑,跑完最后的结果。”刘军解释道。

浪潮信息在算法、数据、算力上的创新,直接推动了源码2.0在代码、数学、事实问答方面的能力。据介绍,后续的源码2.5,源码3.0等。,还是会从算法和数据的角度出发。

其实不仅仅是浪潮信息,其他一些底层大模型厂商也在不断迭代升级自己的基础大模型能力。

10月,百度发布文心大模型4.0,宣布基础模型全面升级。不久后,阿里透露即将开放720亿参数模型。

这在很多业内人士看来是一个很好的发展趋势。毕竟对于行业的健康发展,并不是只有一家公司有领先的能力,整个行业都需要百花齐放。

“对于用户来说,是不是最后只有一个人赢?事实上,并非如此。我们相信,未来的生成式人工智能将是一个多元化的生态,每个模式都可能有它最好的能力,所以每个人加起来都是一个很大的能力集合。”刘军告诉数字智能前线,未来行业用户最终部署的时候,可能会有不同的模型来支撑,而这些都是基础大模型的强项。

[S2/]03

从硬件到更大的市场[/s2/]

随着大模型在各行各业的不断渗透和深入,企业对大模型厂商的需求已经不局限于大模型本身的能力,还在迅速扩展到模型训练经验、高质量数据集,以及如何解决计算效率、存储、网络等方面的问题。

“我们的算法工程师和实现工程师比我们的服务器更受欢迎。都是出差跟各个家庭沟通,都很满。”浪潮信息一位人士告诉数字智能前线。作为国内最大的AI服务器提供商,也是国内最早搭建大规模模型的厂商之一,浪潮信息在今年大规模模型浪潮兴起后,收到了大量客户对模型预训练、数据处理、架构调优等方面的需求。

比如浪潮信息从866TB的海量数据中清洗出5TB的优质中文共享数据集。刘军透露,据不完全统计,目前国内已有超过50款大型机型使用了浪潮信息的开源数据集。此外,浪潮信息在模型快速收敛和效率提升方面的经验和方法也受到了广泛关注。

模型训练效率的提高是更大的课题,直接关系到巨大的成本问题。尤其是在GPU紧缺的背景下,如何有效利用好计算能力,是每个企业面临的挑战。

今年8月,在聚集了20多位国内大模型“顶流”创业者的西溪路闭门会议上,李开复曾表示,很快大家就会发现,做大模型Infra(硬件底层)的人比做大模型的人更贵更稀缺,会做缩放律(扩展律,模型能力随着训练计算的增加而提升)的人比会做大模型Infra的人更稀缺。

客户日益复杂的需求,正促使一大批大型号厂商,尤其是有实力的厂商,加快角色和业务的转型和拓展。在人工智能产业链中,各种跨界动作越来越频繁,行业出现“软件企业倒,硬件企业涨”的现象。

可以看到,之前百度、腾讯、阿里等众多大模型厂商都为用户提供了大模型相关的工具链。一些大厂也在加速用户更新的需求。例如,腾讯云在今年7月发布了AI原生向量数据库,以适应大模型时代的新要求,并于近日宣布将向量数据库的检索规模从十亿级提升至千亿级。然而,京东云已经看到了大模型用户在存储方面面临的新挑战,并正在增加相关业务投资。

浪潮信息也在改变角色定位。刘军坦言,“我们越来越不认为自己是硬件制造商。如何把硬件业务转化为更大的生产力,必须了解客户的应用需求和痛点。这也要求浪潮信息不仅要做硬件,还要在系统、软件、算法上非常强。”

刘军表示,目前浪潮信息在大模型上的核心思路是发挥自身优势和对行业的理解,构建强大的基础大模型,然后通过开源把应用、行业、专业、技能的工作交给生态伙伴、行业客户和开发者,共同推动大模型的创新、使用和落地,而不是和大模型企业、软件厂商竞争。

为此,8月24日,浪潮信息正式发布大模型智能计算软件栈OGAI (Open GenAI Infra)。这是一套面向生成式人工智能开发应用场景的全栈软件,基于浪潮信息以往积累的大模型工程经验和服务客户的经验,涉及集群系统环境部署、计算能力调度保障和大模型开发管理。

OGAI分为五层,每层对应不同的应用场景,每层解耦。用户可以调用他们需要的工具。其中,L0到L2主要是针对提高基于模型的大规模计算环境的效率。L3和L4分别是大模型训练层和多模型管理层,提供类似于互联网企业工具链的功能。不同的是,OGAI可以为企业提供本地化和私有化部署。

数字智能前线了解到,目前浪潮信息在帮助合作伙伴和客户更好地训练和应用大模型方面已经有了大量的实践。

比如某互联网公司使用AI集群训练面向推荐场景的大型模型时,遇到了模型数据无法及时从存储中读取的问题,导致GPU空闲置,训练性能低下。企业里的算法团队几个月都没能攻克。

浪潮信息AI团队介入后发现,在其场景下,大模型的数据读取io需求远远超过一般AI模型训练,导致推荐场景下为一般模型训练的服务器配置不匹配。针对这一特殊需求,浪潮信息团队结合自身经验,通过修改和优化CPU BIOS中mps等选项的配置,最终解决了这一问题。

网易福喜借助浪潮信息提供的AI计算服务和高质量共享数据集,训练出110亿参数的中文预训练模型“语言”,并荣登中文语言理解权威评测基准线索分类任务榜首。

“未来,我们将专注于开源社区的建设,通过持续开源基础模型的形式,尽可能广泛地赋能更多用户场景,拓展基础模型的能力边界。”吴玉华说。浪潮信息还将通过元脑生态,联合国内众多左手合作伙伴和面向行业的右手合作伙伴,推动行业内大模型的落地。

未经允许不得转载:科技让生活更美好 » 开源大世界,谁来打好大模型的地基?