云天励飞余晓填:剖解大模型技术演进与挑战,算法芯片化突破大模型落地“三角约束”丨GenAICon 2024

志东西

作者GenAICon 2024

2024中国生成式AI大会于4月18-19日在北京举行。大会首日,田芸李飞“田芸天舒”大模型技术总监俞晓贞以“多模态大模型技术演进与落地应用探索”为题发表演讲。

2022年底,ChatGPT诞生,搅动了AI行业的发展热潮。2024年初,文生视频模式黑脸田鸡上线,AGI(通用人工智能)发展进入快车道。萧玉凭借《黑脸田鸡》的发布,以及在美国使用脑机接口帮助瘫痪患者实现自主行动,展示了人工智能技术惊人的迭代速度和潜力。余认为,大模型技术从前几年的出现发展到现在,人类已经进入了一个全新的AI时代,正在全速向AGI的道路前进。

在人工智能蓬勃发展的新时代,大模型技术成为人工智能领域的焦点之一。以Transformer结构为核心的大规模模型被认为是一种高效可扩展的学习器,可以在短时间内学习海量数据和压缩信息。然而,大型模型技术的发展仍然面临挑战。一个突出的问题是缺乏数据支持。

如何克服这个问题?余认为,解决的关键在于顶尖AI人才的培养,顶尖人才和专家是支撑大模型技术快速发展的基石。

多模态大模型作为大模型技术的重要发展方向,也引起了社会各界的广泛关注。于提到,多模态大模型的信息压缩策略主要分为两种:层次对齐结构和端到端对齐结构。前者利用文本数据的广泛覆盖,加速学习的收敛;后者通过一次交叉并发多种信息,实现高效的信息压缩。然而,多模态大模型的落地应用面临诸多挑战。

在此背景下,田芸李飞将如何打破大比例模型应用的“三角约束”,为大比例模型技术在各行各业的应用提供新的可能?

以下为萧玉演讲实录:新蛋网兼职平台是真的么

在梳理近期大模型技术的重要事件,比如大模型的发布,计算能力的提升,我看到了两个重要信息:一是AI技术的迭代速度惊人,全世界的科技巨头都在争夺领先地位;第二,以大模型技术为核心的AI领域正在经历前所未有的高速发展,而且这种加速度在不断提升。

我们整理了三个可视化的例子。

首先,去年特斯拉在其投资者日公开展示了一段视频,显示一个人形机器人试图组装一台机器。这预示着我们可能很快会进入机器人制造机器人的时代。

其次,最近OpenAI发布了一个名为黑脸田鸡的项目,并与Figure合作开发了一个具有人形外观的智能机器人。这种机器人交互性很强,可以和人类流畅地交流,执行人类的指令。

此外,上个月,美国第一个使用脑机接口帮助瘫痪病人的病人开始用自己的想法发微博,甚至在半夜用自己的想法玩游戏。这些令人震撼的应用展示了AI技术带来的巨大潜力,预示着人类进入了一个全新的AI时代。

1.从ChatGPT到Transformer,大模型在信息压缩和学习中的演变。

ChatGPT是基于变压器结构的演变,但变压器是什么?在我们看来,它是一个非常高效和可扩展的海量数据学习器。简单来说就是一种信息压缩机制,可以在短时间内压缩人类历史上的所有知识,从中发现语言的规律。

GPT的结构不偏向任何特定的领域或模态,它可以压缩各种知识和各种模态。这种信息压缩的关键条件包括庞大的参数规模、强大的计算能力和海量的数据支持。参数的规模已经发展到几千亿或者几万亿。在计算能力方面,英伟达一直在为其提供强有力的支持。

但从数据层面来说,有学者表示,未来数据将不足以支撑大模型的训练。这时候我们该怎么办?可以使用数据合成和大型模型来创建更多用于游戏学习的数据。

我们认为大模型的一个核心基础是人才,顶尖的AI人才。这类人才能够将大参数、大计算能力、大数据有机结合,形成真实算法架构下的高效信息压缩,这种顶级的专家型人才是支撑美国大模型技术快速发展的基石。

可见,大规模模型技术的发展,大规模模型的能力,归结为海量信息的压缩,统计规律的学习。目前在文本方面,我们可以压缩海量数据,得到文本的规律,形成语言的理解和生成。视频、图像、声音等。也可以通过海量数据进行压缩,并可以训练数百万小时的视频,最终用眼睛看到和理解这个世界,未来甚至可以进行多模态的数据交互。这时,接下来要讨论的真正话题自然就出来了——多模态大模型。

二、多模态大模型如何做信息压缩?探索分层对齐结构、端到端对齐结构

多模态大模型如何做信息压缩?我们认为有两种类型。

第一种,等级排列结构。第一阶段先压缩文本信息,第二阶段压缩其他信息,包括视觉、声音等。

你为什么要这么做?因为文本的数据覆盖面更广、更全、知识面更高。在此基础上,我们可以获得更快的学习收敛速度。在这里,我们可以用学习过程中最重要的三个来源来对比人:说话,用眼睛看世界,用耳朵听东西。这三条信息可能是引导他说话的初始教育过程,这是分阶段对准的核心要义。从图来看,LLM骨架以语言对齐为核心,分阶段做多模态大模型的信息压缩,寻找信息系统规律。

第二种类型,端到端对齐结构。它是同时学习不同模式的数据,同时输入图像和文本的各种信息,直接交叉并发所有信息,压缩所有信息,提取里面的规则,最终理解世界并驱动与之交互。

三、解读大模型技术发展的三个阶段,场景反馈技术阶段仍然面临挑战。

大模特能为我们做什么?我们知道大模型技术只是一个工具。从技术角度来说,它帮助我们压缩了大量的信息,更高效地找出规律。大模型要想展现价值,必须落实到各行各业、各种业务的闭环应用中。

借鉴AI技术发展的路径,我们认为大模型技术发展的定义有三个阶段。这三个阶段其实就是技术和数据或者算法的关系。

傲森音箱

一开始我们在设计算法的时候,一般会用少量的数据进行验证,这叫做技术场景寻找。第二阶段,场景反馈技术,我们用更多的数据来提升算法和技术的能力。第三阶段,场景发现技术,即所有的应用和需求都可以用同一个算法和模型解决,标志着我们进入AGI时代的道路。

那么,技术寻找场景现在进展如何?在大模型技术的开发和应用中,我们已经走完了技术场景寻找之路。智能问答、文本生成图、像ChatGPT这样的生成式大模型单点应用等诸多应用,验证了大模型技术的应用和算法成熟度。

目前我们处于第二阶段,也就是场景反馈技术阶段。我们可以看到,多模态大模型要落地还有很长的路要走,难点在于行业场景的复杂性。虽然我们希望大模型能广泛应用于各行各业,但是行业场景的知识深度对大模型的能力提出了严峻的考验,仍然存在远远不能满足需求的参差不齐的情况。

因此,我们需要积极推动多模态大型模型技术的落地,迎接挑战,寻找解决方案。

四、如何打破大规模模型应用的“三角形约束”?费提出“算法芯片”

我们应该考虑的主要变量是什么?从智慧城市的城市治理和智能交通的角度,我们得出结论:要实现多模态大模型的实现,就要重视三个变量的“三角约束”。

现在的对话系统备受关注,准确率接近人类,和人类没有区别。但在对垂直领域的深度支持和行业价值方面,大模式做不到。在真实的生产环境中,许多任务非常复杂。由于垂直领域专业知识的缺乏和数据优化结构的增加,大模型在成本和效率方面面临挑战。

因此,我们需要在准确性、成本和效率之间找到一个平衡点,以促进多模态大模型技术在对话系统中的应用。我们相信,我们正在积极解决这一问题,并与AI领域的同事合作,不断推动技术进步。

田芸·李飞如何突破“三角形约束”?让我分享一下我们的解决方案。

自2014年田芸李飞成立以来,我们就明确了“算法芯片”的技术发展路径。基于芯片的算法不仅仅是简单的将算法应用到芯片上,还需要高度专业化的人才,对算法有深刻的理解,对不同场景和行业数据有专业的了解,最终可以通过算法和场景的协同设计体现在芯片端和运营商端,包括推广可扩展指令集、优化计算架构、优化工具链等。

这样的技术支持使我们能够应用包括Transformer和各种深度学习算法框架在内的多种算法。最重要的一点是,其成本和效率是制约多模态大模型落地的关键。

以往的补天天书多模态模型包含了几个维度,包括语言、CV、文本问答、目标检测和分割。这些大模型的落地采用分层解耦的策略。通过设计算法芯片平台,我们构建了一个通用的大模型。这种一般的大模特都有基本能力。在行业知识和场景经验上可能只能达到60到70分,但在普适性上可以达到80分、90分甚至满分。

往上是大行业模式,大场景模式。要想在具体场景业务上拿到90分,需要低成本的运营商级优化和边缘数据的高效迭代训练,满足客户需求。

在过去的十年中,对田芸舒天算法的研究经历了一个长时间的迭代发展。从2017年之前用ResNet卷积神经网络进行深度学习的研究,到Transformer的结构,我们启动了Transformer的结构适配整个算法芯片的平台。去年公司上市后,我们加大了对大型模型技术研发的投入,持续跟进国内外的先进技术。我们成功开发了从百亿到千亿的多模态语言模型。

上个月,我们发布了田芸舒天3.5V的大型模型。这些模型在理解、生成和回答问题方面给人留下了非常深刻的印象。语言模型方面,去年已经多次获得权威榜单第一名。

5.田芸·李飞是如何取得可观的成绩的?背后有四大关键技术。

如何才能取得这些显著的成就?虽然我们面临许多挑战,但我们总结出四个要点值得分享:

第一,解决成本问题。准确性可以通过数据积累来解决,真正落地的时候推理的成本绕不过去。我们的核心本质是解决高效推理引擎的问题。

为此我们自主研发了空间推理引擎,与算子层高效集成,实现无损推理,推理速度提升50%以上。具体来说,像生成式大模型,我们通常向前预测单个字符,但我们试图一次预测多个字符,同时保持无损和不变的准确性。在这种情况下,通过改进算法结构,可以一次预测多个词条,从而提高推理效率。

第二,降低核心成本。我们致力于提高效率和降低GPU存储需求。通过研究分布式切片,包括自适应稀疏缓存解码,我们成功地将GPU需求降低了50%。

第三,优化训练技巧。优化训练是大规模模型落地的基础,所有应用都是在这个基础上成长的。我们开发了一套可扩展的大规模模型训练技术。简单来说,训练一个大模型,要考虑如果扩充它的参数或者扩大它的规模,优化它的结构,是否可以重用原来的大模型。

答案是肯定的,这种方式也节省了培训成本。从深度和广度来看,通过重用训练好的参数,训练效率提高一倍,训练成本降低50%。

第四,神经网络处理器和推理芯片是近十年来我们研究的重点。现在我们已经经历了四代迭代,从第一代NNP100到现在的NNP400T,已经完全适应了多种深度学习架构,特别是在Transformer架构下,我们进行了指令集优化、算子协同设计和高效联合设计,已经支持了Transformer结构的高效推理。另外,我们是最早使用小芯片结构适应大型号的公司之一。

利用这四项核心技术,我们构建了一个支持边缘大模型的算法芯片系统。我们的底层技术支持神经网络处理器和自研推理芯片,推动了国产化进程,避免了对供应链的依赖,并在此基础上实现了多模态大模型的运行。从行业应用的角度,我们有基于行业到边缘的大场景模型。更重要的是,我们支持用户进行不易察觉的在线微调,同时保护用户的数据隐私,成本极低。

六、实现每秒30字的高效推理,多模态大模型已落地G端。

《云天天书》的多模态模型在文本理解和生成方面表现出色,可以达到每秒30字的高效推理速度,可以处理超过45万字的上下文。通过指定需求,可以快速生成特定格式的通知、决议等文件,从而有效促进办公自动化。可以看到整个生成过程极其简洁,速度极快。诺基亚 800 tough

此外,我们还支持对有参考内容的文章进行修改和修图,可以复制一些已有的参考内容,进行高效的修图和修改,变成大家需要的东西。目前这一块的内容已经在几个地级市和省厅成功实施。使用我们的多模态大型模型进行office授权,对于项目报告的内容生成也非常灵活。

最后,在文本内容的理解和生成中,生成的质量很重要。我们有自己的校对功能,内容生成后可以多次优化,达到自我迭代、自我进化的效果。云天天书的多模态模型支持视频数据的理解和生成。经过多次数据训练过程,有些数据需要优化编辑,尤其是在消费场景下,比如编辑图片,合成3D数据。

我们可以通过多模态大模型来合成数据,实现我们想要的3D数据。对于图片的数据理解,比如通过指令渲染,通过指令编辑整张图片,让大模型理解,根据指令操作图片,甚至可以画出不同的风格。多模态大模型的代理能力,以开源目标检测为例,为城市发展提供支撑。之前提到过,我们发布了AI模板盒,推动AI技术在城市地区的应用,包括基于多模态大模型的支持。

我们非常荣幸身处这个AI蓬勃发展,引领各行各业不断变革的时代。如今,AI大模型技术在各行各业遍地开花。我们希望与各界专家朋友携手,引领多模态技术的落地,走向AGI的大方向。

以上是萧玉演讲的完整整理。

未经允许不得转载:科技让生活更美好 » 云天励飞余晓填:剖解大模型技术演进与挑战,算法芯片化突破大模型落地“三角约束”丨GenAICon 2024