大模型套壳祛魅

刚刚过去的2023年是大模特元年。而国内大模特的数量却是Sturm und drang——200多,“肠衣”一直是笼罩在大模特头上的舆论阴云。

从年初到年底,从百度文心一言到一万对象,从字节跳动到谷歌双子星,各种“疑似肠衣”事件多次冲上热搜,后被有关方面解释澄清。

非AI从业者视肠衣为洪水猛兽;真正的AI从业者都是不懂壳的。但由于“壳”本身并没有一个清晰准确的定义,业界对壳的理解是一千个读者就有一千个哈姆雷特。

当我们谈论肠衣时,我们在谈论什么?

抛开具体场景,说肠衣都是标签化的。为了理清大模型套管的逻辑,笔者采访了一些AI从业者和投资人,结合OpenAI、Meta和国内大模型相关技术论文,从一个大模型的“炼丹”过程入手,看看套管的空之间存在哪些步骤和环节。

2024年可能是大规模模型落地的元年,AI原生的一些应用会陆续出现。在积极发展大型模型应用生态的同时,希望业内关于“肠衣”的讨论能够抛开情绪,回归事实。

第一,大模型的统一“内核”

为了更好地理解外壳,我们必须区分“外壳”和“内核”。

今天,所有大模型的核心都源于2017年Google Brain发布的Transformer神经网络架构,该架构与2023年4月Google收购的AI公司DeepMind合并成为Google DeepMind。

Transformer一经问世,便逐渐取代RNN(递归神经网络)和CNN(卷积神经网络),成为NLP(自然语言处理)前沿研究的标准范式。

在《变形金刚》诞生的10年前,有一部好莱坞大片《变形金刚》在全球上映。这部电影的英文名是“Transformers”。就像电影中变形金刚可以灵活变形一样,变形金刚作为一种神经网络架构,也可以通过改变架构的组件和参数,衍生出不同的变体。

Transformer最初的架构由两个核心组件组成——编码器和解码器。编码器负责理解输入文本,解码器负责生成输出文本。《魔变》在Transformer原有架构的基础上,衍生出了三种变体架构——仅使用编码器的、仅使用解码器的,以及两者的混合。

这三种变体架构都有代表性的模型——Google的BERT,OpenAI的GPT系列模型,Google的T5。今天,这三个模型名通常指的是它们后面的模型模式名(后面也会提到)。

Transformer的模型架构图左边是编码器,右边是解码器。图片来自Google paper

2020年之前,NLP模型研究基本围绕算法展开,基于BERT、T5、GPT架构的模型百花齐放。这期间模型参数较小,基本在10亿量级以内。其中Google BERT的表现更是一枝独秀,基于BERT架构的模型一度在阅读理解竞赛中毁榜。

直到2020年,OpenAI发表论文,首次提出标度律,NLP的研究才正式进入大模型时代——大模型基于“大计算力、大参数、大数据”,模型性能会像摩尔定律一样不断提升,直到“智能涌现”的那一刻。

这一时期,GPT建筑的性能逐渐超越BERT和T5,成为大模型的主流选择。在当今超过100亿参数的主流模型中,除了Google最新发布的Gemini是基于T5架构之外,几乎都是源自GPT架构。可以说,GPT已经完成了大模型架构的核心的统一。

大型模式进化树,其中GPT系列是蓬勃发展的。图片来自Github,作者Mooler0410。

从大型模型的进化脉络来看,今天所有的模型都是“造壳”的Transformer及其三个变种。

当然,变形金刚也有一个不愿意脱壳的挑战者。例如,2023年12月5日,来自卡内基梅隆大学和普林斯顿大学的两位教授分别发布了一个名为“Mamba”的新架构,它拥有与Transformer相当的语言建模性能,但也解决了一些可扩展性限制。不过,这种新架构的具体表现还需要时间来检验。

模型架构选择只是第一步。百川智能创始人兼CEO王小川在一个月前的2023甲子引力年终盛典上将大模型培训比作“做菜”,模型架构只是一个菜谱。要得到完整的菜品,需要烹饪,也就是大模训练的过程;还有成分,也就是数据。

大模特的烹饪过程大致可以分为前期训练和微调两个阶段。

前期训练是大型模型训练的核心环节。通过将大量的文本信息压缩到模型中,就像学生在寒窗苦读的过程,让模型拥有世界知识。OpenAI创始人之一、特斯拉前AI总监安德烈·卡帕西(Andrej Capassi)在2023年5月的微软Build大会上透露:“预训练是在超级计算机和可能需要几个月处理互联网规模数据集的地方使用数千个GPU,占训练时间的99%。”

经过长时间的预训练,将获得一个基本模型。在基础模型的基础上,会加入特定的行业数据集进行进一步的微调,得到一个微调模型,或者叫行业模型和垂直模型。

微调通常分为两步——SFT(监督微调)+RLHF(人类反馈强化学习),其中RLHF是OpenAI的创新设计,它决定了模型可以与人类的意图和价值观保持一致,是训练可靠对话模型不可或缺的环节。

前期培训极其昂贵,所以一年或者几个月才会做一次。OpenAI花了大约1200万美元训练ChatGPT,花了500万美元由Meta训练Llama 65B。相比之下,微调成本较低,可能只需要几天甚至一天。

正因如此,只有具备足够计算能力和财力的大公司,以及有资本支持的雄心勃勃的初创企业,才会涉足基座模式。虽然百款大战中有大量的国产大型模型,但是只有10%左右的模型是基座模型,90%的模型都是在开源模型的基础上加入特定数据集进行微调的行业模型和垂直模型。其中,目前使用最广泛、性能最好的开源基座模型是Meta的Llama 2。

从大模型的训练过程来看,没有人会反对建筑的选择——“壳”形变压器。但是,围绕架构的前期训练,却成了要不要脱壳的秘密角落。

二、“原创派”和“模仿派”

前期训练是大模的核心环节,也是“蹲点”和“自研”之间有争议的环节。

如前所述,模型框架只是一个大模型的配方——有三个配方,伯特,T5和GPT,每个配方都会有一个特定的名称——预训练框架。按照预训练框架的食谱烹饪就是预训练过程。

有一点可以肯定的是,所有把自己定位为基座模特的公司都是从零开始投入真金白银做完整的前期培训,但是菜谱的起源却分成了两派。

第一个学派,标准意义上的“自研学派”,从菜谱开始研究,自己制定了前期训练框架。

这个学校的共同点是布局早,可以追溯到2020年之前,远在大模大赛的发令枪随着ChatGPT的诞生而打响之前。

百度就是其中之一。2019年,百度发布了自主研发的预训练框架ERNIE,也就是今天的文心大模型,今天已经更新到ERNIE-4.0。值得一提的是,谷歌伯特和百度厄尼是以美国著名儿童节目《芝麻街》中的人物命名的,他们是一对好朋友。

另一个早期自己开发前期训练框架的大模型公司是智普AI。智普AI成立于2019年,并于2020年底开始开发自己的预培训框架GLM。GLM类似于谷歌T5,也是基于编码器-解码器架构。2022年11月,斯坦福大学大模型中心对全球30个主流大模型进行了全方位评估,GLM-130B是亚洲唯一入选的大模型。

除了百度和智普AI,还有一些闭源的大模型,并不公开其技术细节。代表公司有Minimax和月亮的阴暗面。有投资者表示,这些公司也有自己的前期培训框架,但无法准确验证。

总的来说,国内基于自研预训框架的大型模型公司只有5家。

第二大模型公司也是从零开始做了完整的前期训练流程,但是前期训练框架是基于开源框架,主要是Llama 2,可以称之为“模仿派”。

双十一成绩单出炉2020

对于开源社区来说,这是非常正常的做法。开源的意义在于宣传其研究成果,促进技术的交流与共享,让更多开源社区的研究人员受益。

Llama 2也是在过去开源模式的肩膀上一步步发展起来的。例如,在Llama 2的模型架构中,预规范化受GPT-3的启发,SwiGLU(激活函数)受PaLM的启发,旋转嵌入受GPT-尼奥的启发。其他模型经常使用这些神奇变化的参数进行预训练。

万件事创始人李开复说:“全球大模型架构从gp T2-& gt;地鼠-& gt;龙猫-& gt;美洲驼2->;易,业界已经逐渐形成了大机型的通用标准,就像做一个手机app开发者不会创造一个iOS和Android之外的新的基础设施一样。”

值得强调的是,模仿羊驼2不代表没有核心竞争力。万物在文章中提到,模型训练过程就像做一道菜,结构只是决定了烹饪的原料和大致步骤。训练一个好的模型,需要更好的“原材料”(数据),控制好每一步的细节(训练方法和具体参数)。

“原创派”和“模仿派”,孰优孰劣?此事需另议。总之,原校赌的是未来,模仿者赌的是现在。

一位投资人表示:“Llama 2并不是一个完美的架构,仍然有很大的局限性。它有机会达到GPT-3.5的水平,但如何达到GPT-4的水平尚未见分晓。如果底层技术架构一直受制于Llama 2,恐怕超越GPT的机会不大。”

投资方的投资机构投资了多家大型模特公司。在做投资决策时,是否有自主开发的前期培训框架也是他们的标准之一。

安AI公司的R&D工作人员表示,自主研发的前期培训模式的优势在于扩展性强。“如果是基于开源,是有版本限制的。比如骆马2只有7B,13B,70B版本,不会再有了。如果你想把它变大,你做不到。”

不过理想是满满的,但是原来的预训框架的优势在理论阶段还是存在的。短期来看,无论是自研还是仿制的羊驼2,都是GPT-3.5的水平,性能差距不大。

另一位AI投资人表示:“现阶段,开源框架已经基本达到了GPT-3.5的水平。所以,如果你选择从零开始开发与开源框架同级别的预训练框架,不如直接选择模仿Llama 2,这样更高效更稳定,除非你有能力开发出符合GPT-4甚至下一代GPT-5的模型。这里的能力是指持续投入的技术能力和充足的资金,因为目前预计GPT-5的训练可能需要3万到5万个H100,费用在10亿到20亿美元之间。”投影戒指怎么投影

现阶段大家比拼的不是前期训练框架的表现,而是工程能力,业内一般称之为AI Infra——AI基础设施。

昆仑万伟AI Infra负责人程程将大模型的发展分为三个阶段:2020年前的算法研究阶段,2020年至2023年的数据王阶段,2023年的AI Infra阶段。

他预测,未来大规模模型算法的研究必然会向Infra方向探索:2024年,稀疏GEMM(sparseseattension/MoE)将是学术界和工业界的主战场。

三、GPT的数据羊毛

前期训练完成后,就到了微调阶段。其实这个阶段就是大部分“套壳”大模型被推翻的原因,直接关系到数据集的质量。

数据的使用贯穿于大模型预训练、SFT和RLHF的每一个阶段。在预训练阶段,数据“岂止精细”。因为前期训练利用互联网公开数据,不同大模型最终获得的知识储备正在逼近。

明显的差异发生在微调阶段,数据“细而不多”。例如,Llama 2的研究人员在微调过程中发现大多数第三方SFT数据集在多样性和质量上存在不足,因此他们自己构建了27540个高质量的标注数据集,可以显著提高SFT的效果。

但并不是所有的公司都像Meta那么有钱。有没有更高效的获取高质量数据集的方法?

是的,通过从ChatGPT等对话模型中“窃取”数据。

这里的偷并不是指盗窃,而是直接利用ChatGPT或者GPT-4产生的数据进行微调。这些合成数据既保证了数据的多样性,又是OpenAI对齐的高质量数据。

美国电子商务初创公司Rebuy的AI总监、深度学习博士Cameron R. Wolfe将这种大模型研究方法称为“模仿学习”,并表示模仿学习明显受到了“知识蒸馏”的启发。产品营销策略ppt

知识提炼是机器学习中标准的模型压缩方法。它把复杂模型看作“教师模型”,把简单模型看作“学生模型”,通过教师教学生的方式来传递知识。

模仿学习的原理,图片来自Cameron R. Wolfe的博客。

Meta发布Llama 1系列机型后,开源社区诞生了各种模仿机型,包括羊驼、骆马、考拉、GPT4ALL等,由斯坦福大学、加州大学伯克利分校等高校引入。这些模型都使用了ChatGPT的会话数据进行微调。

值得一提的是,OpenAI明确禁止使用ChatGPT生成的数据开发在服务条款上与OpenAI竞争的模型。因此,上述模仿模式不能用于商业目的。

但实际上,各种商业模式都在走“偷”数据微调的捷径,这是公开的秘密,而且不限于国家。

2023年12月,字节跳动和谷歌双子星的“疑似肠衣”事件由此而来。根据字节跳动的回应,2023年初,有工程师将OpenAI的API服务应用于实验模型研究,但没有上线。后来,这种行为被禁止了。从实际角度来看,字节跳动“只是犯了一个世界上所有模式都会犯的错误”。

一位做NLP研究的科学家说:“OpenAI可能预感到字节跳动可以花钱造一个模型,所以提前压制了它。但事实上,这并没有限制字节跳动的训练模式。纯粹是为了‘侮辱’。”

谷歌双子座也是类似的情况。由于缺乏高质量的中文数据集,谷歌很可能通过文心一言获得大量中文对话数据,做双子座的“老师”。但或许是因为急于追赶OpenAI,数据清洗、自我认知对齐等工作都没有做好,导致双子座把文心一言老师当成了自己。

国内某大型模型公司的算法工程师直言:“大家互相薅羊毛,都想用,但要小心。一不小心就尴尬了。”

第四,把“壳”做厚,就是竞争力。

预训练阶段模仿Llama 2和微调阶段“窃取”ChatGPT的数据是引起“套管”争议的两个主要场景,也是大模型训练过程中决定模型能力的关键场景。如果把范围扩展到模型的推理和应用,就会有更多的“套案”场景。

前歌鸟设计师、AI助手Monica联合创始人淑熙随即分享了“肠衣”的四个高级阶段:

如果算上模仿Llama2架构的预训练,也算是五阶了。这五个进阶基本涵盖了大模型“肠衣”的每一个场景。

值得一提的是,上述行为能否被称为“套管”在业内也存在争议。

算法工程师刘聪表示:“在我看来,只有一种情况可以认为是套壳——直接买卖API,比如一些网站免费使用大模型来收集和倒卖数据。其他情况真的不算。在to B行业,要做一个产业解决方案,仅靠套管是做不到的;就算是to C,如果它对产品有自己的理解,也不能说是一个空壳。是不是所有大型号都用肠衣?”

“肠衣这个词太贬义了。”刘聪说。

脱离具体场景谈“套管”,是一种贴标签的行为。当行业已经褪去了对壳的污名化,将不同的高级壳行为视为一种正常的商业行为,我们才能更加理性客观地分析大模式的优劣。

但大型模型厂商在推广时,应更谨慎地使用“自研”,并详细解释自研的内容。否则只会加剧认识的混乱。

「肠衣」有竞争力吗?淑熙认为,如果一个AI应用停留在一、二阶,注定是一个门槛极低、没有壁垒的产品。三阶和四阶能力在什么场景,什么时候,怎么用,是个关键问题。

一位算法工程师说,大模型真正关键的问题在于业务的成本结构和护城河,而不是是否是壳。

降低成本,把“壳”做得更厚,自然会产生竞争力。

未经允许不得转载:科技让生活更美好 » 大模型套壳祛魅