北京智源人工智能研究院林咏华:大模型背后的数据与算力挑战 | 新质生产力·AI Partner大会

当下的人类正站在AI时代的开端,社会中的每一个人都在被强大的AI技术赋能。聚焦AI领域的“赋能者”与“被赋能者”,36氪“新质生产力·AI Partner大会”以“我被AI赋能了”为主题,汇聚国内AI领域重量级嘉宾,一起共探AI行业新图景。

5月24日,36Kr“新品质生产力AI合作伙伴大会”在北京世贸中心正式拉开帷幕。大会聚焦AI场景和应用,分为“AI能为我们做什么”和“我被AI赋能”两个章节。来自蚂蚁集团、联想、OPPO、百度、英特尔等企业的AI领域先锋齐聚现场,从“使能者”和“被赋能者”的不同角度,探讨AI技术如何“引爆”千万个行业。马产平彝族现状

北京致远人工智能研究院副院长、总工程师林永华。

2024年,AI技术走向应用落地的原野。模型参数正式进入万亿美元时代,AGI的探索从语言走向多模态。

技术和应用的进步令人欣慰,但发展的约束已经从技术黑箱转向资源消耗。根据OpenAI的数据,全球AI训练中使用的计算量平均每3.43个月就会翻一番。乐观估计下,仅国内大型模型的训练和推理就将产生1.1-3.8万台高性能AI服务器的计算能力需求。

而模型训练就是一个吞噬数据的黑洞。研究机构Epoch AI认为,对数据的需求急剧增加,可用于训练的高质量文本可能在2026年耗尽。

最近一周,北京致远人工智能研究院副院长、总工程师林永华被大型号降价的新闻刷屏。致远研究院副院长兼总工程师,IBM中国研究院成立以来的首位女院长认为,降价的压力本质上是资源的压力,一方面来自于机型培训,另一方面来自于机型调配。

2021年,致远研究院发布“启迪2.0”,国内首个万亿参数模型,全球最大。2022年加入致远后,林永华对中国的AI资源和生态有了更深刻的洞察。

在主题为“大模型背后的数据和计算能力挑战”的演讲中,林永华认为,AI背后最重要的资源是数据和计算能力。目前中国的AI产业需要解决的不仅仅是资源储备的问题,还有生态共建的问题,上下游需要以开放的心态来构建生态。

“数据,计算能力,有很多问题,有很多东西要解决,是技术的基础,我们也希望通过开源和开放,和大家一起建立一个很好的基础。”她总结道。

以下为林永华演讲实录,由36Kr编辑:

大家早上好。除了应用之外,致远研究院还在包括大模型算法、数据、评估、计算能力等多个问题上进行探索、研究并取得突破。我们是真正的人工智能推动者。

今天的主题是“大模型背后的数据和计算挑战”。

人工智能大模型背后最重要的资源是:算法、数据和计算能力。这两年各种开源算法迭代无穷,算法资源不断涌现。对比算法,我们可以看到,用于训练的数据和计算能力已经成为大模型开发的资源瓶颈。

数据的问题有三个部分:数据的数量,数据的质量,以及如何使用数据。

首先是数据量。如今,全球大模型背后有一个数据集共同抓取。感谢17年前的一群志愿者,他们以公益的方式在世界各地不停地抓取网页,积累数据。到目前为止,他们已经积累了超过2500亿个网页,并免费提供给全球的研究人员和开发者。OpenAI和Meta都是基于这个数据集训练语言模型。如果没有17年前开始的这种持续的数据集积累工作,今天的大模型不会发展得这么快。除了网页的文本数据之外,图片、文字、视频、书籍、代码等其他资料都是构建大模型的重要“原材料”,但这些数据远远不够。特别是各队今年开始陆续训练多模态模型和文生视频模型,需要高质量的图形对和视频数据。另外,目前国外可用的开源数据集95%以上是英文的,中文相关的数据非常少。

当我们考虑将通用模型投入到行业中时,我们必须使用大量的行业知识来不断训练通用模型。但是这个行业的专业知识在哪里呢?行业知识的数据不是指企业数据和业务数据,而是这个行业领域的大量书籍、文档等数据。目前,该行业的领域数据也非常分散和稀缺。

第二,数据质量的问题。GPT-4o发布后,《麻省理工科技评论》上的文章指出,GPT-4o分词训练中使用的中文数据充满了中文垃圾网站的信息。比如分词模型中最长的100个中文单词,有90多个来自垃圾网站。这引起了业界的关注,OpenAI用来训练GPT-4o的中文语料库质量堪忧。事实上,在我们对全球最大数据集Common Crawl的调查分析中,也发现了该数据集的中文数据存在类似的质量问题。

除了数据集的内容质量问题,还会出现其他数据质量问题。比如数据源是一些扫描的图片,OCR会转换文字,尤其是公式和图表,也有识别质量的问题;目前跨模态学习中使用的图文对和视频图文对往往存在图片或视频的文字描述质量不高等诸多问题。如果用于训练的数据集质量低,会极大的浪费计算能力,极大的影响模型生成内容的安全性,所以数据中质量非常重要。

第三,数据使用的问题。训练数据是用于机器学习的,而不是用于内容的二次分发,直接供人阅读和使用。在现有的法律体系下,对于允许机器“学习”的数据新用途,并没有相关的定义。大型模型的开发需要使用高质量的数据。如何平衡数据版权问题和使用高质量数据的“机器学习”问题?

面对数据的这些问题,致远研究院一直希望探索出一条路,让整个行业有更多高质量的数据可以使用。

首先,我们探索三种数据共享的方式,并在数据平台上实现。致远研究院由国内数十家头部互联网企业、大型模型企业、数据提供商等机构以及* *和北京联合成立。

这三种使用方式包括:第一,完全开源下载,这对于所有开发者和研究人员都非常重要。我们对无版权或弱版权的数据做了大量的安全过滤和质量过滤,整理到开源网站中。目前有2.4T的数据,我们会继续把这个做好。flex index

二是鼓励更多组织贡献数据,在联盟内部共享。我们创建了积分共享机制,鼓励企业贡献数据。质量评估后,用质量系数乘以数据量就可以得到分数。贡献数据的企业可以使用优质数据池中的积分,选择联盟内另一家企业贡献的数据,创建“共建-共享”积分使用数据的互助模式。目前已经有近30家公司跟我们做了这个。我们期待更多的企业加入进来,与我们“共建共享”。

第三,对于有版权要求的高质量数据,我们创造了“数算合一”的使用方式。高质量版权数据的处理和训练都与计算平台在同一个安全域,严格保证数据的使用。大模型团队可以在这个平台上使用这些数据,对数据进行第二次处理,训练模型。培训结束后,他们不能带走数据,但可以带走模型,让数据提供者减少对数据安全的担忧。慧慧周是哪家公司的

根据不同的数据情况,我们构建并推广了这三种不同的数据使用方法。希望能帮助大模型行业尽快解决“数据问题”。没有好的高质量的数据,就不可能做出更好的模型给用户使用。

除了数据的问题,这几天我们都被各大模特公司降价甚至免费的消息刷屏了。这背后是计算成本的压力,一方面是部署的成本;另一方面,培训的费用。

我们今天面临的计算能力问题是计算能力的增长跟不上大模型的需求。从去年到今年,英伟达、AMD、Intel的单芯片计算能力基本上翻了一倍。但是,即使单个芯片的计算能力提高2倍,仍然赶不上模型参数和训练数据所需的计算能力增长。

我们目前面临的挑战是AI算力建设不足。国内单片机计算能力与国际相比还有差距。另外,现在国内各种AI芯片的生态是碎片化的。每个芯片厂商的硬件架构、指令集、编译器、算子库都不一样,导致上层算法的移植成本很高。如果算法开发团队在目标芯片平台上遇到算子缺失,可能要等厂商开发一段时间,这样会耽误整个开发周期。

我们面临着AI芯片生态碎片化的问题。可以参考已经发展了几十年的通用处理器CPU的生态构建方法吗?CPU有各种架构和不同的指令集(包括x86、ARM、MIPS等。).GCC作为开源的统一编译器,支持不同芯片厂商的移植。上层的C/C++语言开发者只需要开发C/C++语言相同的算法库或应用代码,不管底层是什么芯片。通过GCC各芯片版本的编译器,可以编译出目标芯片上的二进制代码。

我们在AI芯片领域有这样的语言和开源编译器吗?答案是肯定的。目前有开源编程语言Triton用于AI算子库开发,包括其开源编译器。目前Triton已经得到了NVIDIA、Intel、AMD以及国内众多芯片厂商的支持。

所以过去各个厂商都需要自建编译器和运算符库,以赶上不同的算法迭代。现在它将成为另一种生态模式。开源社区将创建各种AI算法的统一算子库,芯片厂商只需移植和优化Triton编译器即可。基于Triton的通用算子库正在由致远研究院联合多个团队和芯片厂商进行建设。

我们希望通过创建一个统一的开源和开放的软件生态系统,帮助多个AI芯片接入各种框架,支持各种AI应用。6月2日,我们将举办首届Triton中国生态meetup,这对于未来以更低的成本使用计算能力具有重要意义。

今天给大家分享的是致远研究院赋能AI大模型的两个资源,分别是数据和算力。我们希望通过开源和开放技术基础,赋能AI大模型产业的发展。

未经允许不得转载:科技让生活更美好 » 北京智源人工智能研究院林咏华:大模型背后的数据与算力挑战 | 新质生产力·AI Partner大会