挑战Transformer,华为诺亚新架构盘古π来了,已有1B、7B模型

机器专栏的核心

机器之心编辑部

五年前,Transformer在国际神经信息处理大会NeurIPS 2017上发表,随后作为核心网络架构被广泛应用于自然语言处理和计算机视觉领域。

一年前,一项重大创新引起了广泛关注,那就是ChatGPT。该模型不仅能执行复杂的NLP任务,还能以人类对话的形式与人类进行交互,影响深远。

在过去的一年里,“百款大战”在行业内激烈进行,诞生了LLaMA、ChatGLM、百川等大型开源车型,推动了LLM领域的快速发展。除了一般的LLM,为了支持更多行业的应用和商业变现,也出现了很多行业垂直模式,尤其是金融、法律、医疗等领域。

开发一个优秀的LLM就像执行一个复杂的系统工程,包括数据准备、数据清洗、模型架构设计、集群通信和优化器选择。在2022-2023年的最新项目中,大部分大型模型都是基于标准Transformer架构开发的,主要在数据工程和训练策略上做了不同的优化。模型架构设计作为至关重要的一环,决定了LLM的最大性能潜力,在业界还没有引起足够的重视。

近日,来自华为诺亚方舟实验室、北京大学等机构的研究人员提出了盘古π的网络架构,试图构建更高效的大规模模型架构。

论文链接:http://dx.doi.org/10.13140/RG.2.2.34314.64966

在这项工作中,作者发现特征折叠的问题影响了这些设计良好的变压器架构的表达能力。以LLaMA为例,通过实证分析,作者发现在Transformer的更深层,特征的秩显著降低,导致所有token之间的相似度增加,大大降低了LLM生成的质量和多样性。作者还从理论上分析了变压器架构中特征崩塌与非线性的关系,发现非线性对变压器模型的能力影响很大。增强非线性可以有效缓解特征塌陷问题,提高变压器模型的表达能力。因此,这项工作从非线性的角度构建了一个更强大的LLM架构。

在这部作品中,作者带来了创新性的突破,引入了一种全新的LLM架构,称为盘古π,以解决特征崩溃的问题。这种架构通过在FFN和MSA模块中引入更多的非线性,从两个方面增强了模型的非线性,而不会显著增加模型的复杂度。作者首先介绍了FFN中基于级数的激活函数,它有几个可学习的仿射变换,可以有效增强整个网络的非线性,同时计算量很小。然后,并行处理每个MSA模块的主支路和增强短路,避免特征秩崩溃。为了保持模型的效率,作者还精心优化了增强型短路运算,使其更适合硬件实现。作者还证明了这两种操作的叠加可以增强非线性补偿。通过这两个新模块,可以在相同的尺度参数下实现显著的效率提高。基于具有串联激活功能的FFN和短路增强的MSA,构建了盘古π结构。

作者构建了两个不同尺寸的盘古π大模型版本,即盘古π-7B和盘古π-1B。通过在大规模语料库上的训练,盘古π模型在下游任务中获得了普遍的语言能力。在各种NLP任务上的大量实验表明,在模型规模相近的情况下,盘古π模型在精度和效率上比之前的大模型有更好的表现。

除了基础能力之外,作者还在金融和法律两个高价值领域部署了盘古π-7B,开发了名为云山大模型的特殊LLM,在实际业务应用中发挥了作用。对金融和法律基准的广泛评估也表明,云山模型超过了其他最先进的类似规模的大型模型。

盘古π的模型框架梦幻西游搞笑id

为了解决传统变压器架构非线性能力不足的问题,研究人员对注意力模块和FFN模块提出了两项改进。图为笔者提出的盘古π整体结构。与原变压器相比,盘古π在前馈网络(FFN)中采用了串联激活函数,并在多头自关注(MSA)中集成了增强的快捷连接,有效地将更多的非线性引入变压器架构。

图:盘古π整体架构

传统变压器架构的问题

变压器架构的主要组件是MSA注意模块和FFN前馈网络。首先,作者采用sub 空之间的投影距离作为衡量变压器网络表现力的常用度量。对于任何输出矩阵

,度量可以写成:

在…之中

可以看作是任意的sub 空。

通过这个度量,作者计算了现有变压器的架构输出的特征多样性:

在…之中

与自我关注计算的特征值有关,

与FFN的激活函数有关,但在实际的变压器架构中,这些值往往小于1,导致现有变压器架构的非线性表达能力受到很大限制,从而导致特征的崩塌。

增强快捷模块

传统的注意模块会因非线性能力有限而带来特征崩溃的问题。典型的大型语言模型LLM只为每个注意力模块配备了一个身份映射的快捷方式,将输入特征直接复制到输出。这种身份映射的方法直接将输入特征复制到输出,导致表达能力有限。因此,本文捷径(Augmented Shortcut)缓解特征崩溃问题,提高大语言模型的表达能力。

一般来说,增广快捷方式与自关注模块和身份映射分支并联,配备增广快捷方式的MSA模块可以表示为:

在…之中

代表L层的文章I增加了快捷方式,

表示其参数。除了最初的身份映射,增强快捷方式提供了更多替代路径来绕过注意机制。与将输入块直接复制到相应输出的身份映射不同,参数投影

您可以将一个输入要素转换为另一个要素空。事实上,只要不同分支学习到的权重矩阵

不同,投影

输入特征将被不同地变换,因此更多的并行增强快捷方式可以丰富特征空。

一个最简单的增强快捷方式,可以用线性变换+非线性激活的形式展开。

在…之中

是非线性激活函数(比如GELU)。绘图

您可以独立处理每个令牌的特征,并保留它们的差异。在实际应用中,为了降低增广快捷方式的部署成本,也可以采用瓶颈结构进行部署。

系列激活功能模块

除了自我关注模块,变压器架构的另一个重要部分是FFN模块。因此,作者继续研究如何增加FFN模块的非线性表达能力。FFN的计算可以写成如下:

它由两个线性映射层和一个激活功能层组成。因此,FFN非线性能力的来源实际上来自激活函数。现有的研究工作提出了许多不同的激活函数,包括ReLU、GeLU和Swish。

然而,这些激活函数都没有被深入研究以增强非线性能力,因为现有的方案倾向于使用更深的网络来增强非线性,这将导致延迟的急剧增加,这对于开发高效和有效的大规模语言模型(LLM)来说是不可承受的。因此,作者引入了串联的思想,在现有的神经网络中,通过并联而不是串联叠加,构造了一个更加非线性的激活函数:

可以看出,随着n的增加,所提出的激活函数的非线性度会不断上升,从而增强了FFN的非线性能力。

最后,作者进行了理论分析,并证明了这两个模块的有效性。利用提出的两个模块得到的盘古π结构比原结构具有更强的非线性表达能力。

联想zuk手机夏普sh8288

实验结果

为了充分展示盘古π架构的能力,研究团队搭建了7B和1B两个模型,并与现有的SOTA模型进行了对比。

7B模型实验结果

在表1中,研究团队综合评价了盘古π-7B模型的性能。测试数据集分为四类:考试、知识、推理和理解。评价方式包括考试成绩和推理速度。结果显示,盘古π-7B模型取得了更好的平均分和更好的结果一致性,在考试任务中的表现更加抢眼,超越了除Qwen之外的对比模型。在处理速度上,通过对比910A上每个token的处理时间,盘古π-7B模型比同体积模型具有更快的推理能力。

表1:与开源7B模型的性能比较(最佳结果以粗体显示)

1B模型实验结果

表2显示了盘古π-1B模型的性能。对比车型包括中国版美洲驼2-1.3B、TinyLlama-1.1B和sheered-LLAMA-1.3B..sheered-LLaMA-1.3B最初是从较大的LLaMA2-7B模型中修剪出来的,然后用标记为50B的精简数据集进行训练。与7B模型的结果相似,盘古π-1B模型在测试成绩上有很大优势。在1B大众模型比较关注的速度性能评测结果中,盘古π-1B模型也以13.8 ms的时延击败了LLaMA2-1B 15.4ms..盘古π-1B模型更适合时间敏感的应用。

表2:与开源1B模型的性能比较(最好的结果以粗体显示)

烧蚀实验

为了更好地理解所提出的架构,本文使用1B模型进行烧蚀实验,考察了模型中各个组件的影响。在这一部分,研究团队分析了SIAF和会计准则对模型整体框架的影响。

表5显示了不同模型元件的烧蚀实验结果,并将其与WideNet模型(也用于改善变压器架构非线性的方案)进行了比较。通过实验证明,每个组件都有效地提高了模型体系结构的性能,并证实了所提出方法的每个组件都有效地提高了变压器体系结构的性能,且优于WideNet。

表5:不同模块对模型影响的实验结果

可视化实验

为了验证盘古π建筑特征的有效性,研究人员还进行了丰富的可视化实验。首先,分析了各层特征的有效尺寸。有效维数是一个基于主成分方差的分析指标,反映了特征维数达到预设总方差(0.8)所需的程度。更高的有效维度表明更多的特征通道对语义表征有意义。经计算,盘古π架构与未进行非线性增强的结构相比,各层的有效维数一致较高,验证了架构设计的有效性。

研究人员进一步设想了每一层特征的多样性。在可视化实验中,通过主成分分析对不同上下文中来自同一表征的特征进行约简,在三维空中表现出明显的聚类现象。可以清楚地发现,盘古π模型表现出更强的多样性;而且随着层次的深入,来自同一token的特征逐渐形成更高维的扩展簇,充分体现了对上下文语义的充分理解和整合。

图:不同模型架构下模型各层的有效特性和隐藏特性的可视化呈现。

同时,研究者基于LAMBDA数据集的延续任务,分析了每个模型的输入显著性。实验中统计了最终输出结果在各个特征维度上的梯度绝对值,反映了各个表征对最终结果的影响程度。在下图所示的例子中,在要求模型输出之前,我们继续写中文提到的名字chestor。可以看出,与基线模型相比,盘古π模型正确地捕捉到了上述有效信息,最终输出正确的结果。

图:延续任务的特征显著性分析。

扩展到财务和法律任务。

除了一般任务,研究人员还将其模型扩展到金融和法律等垂直任务,并精心设计了语料库、标记器和训练过程。训练后得到的模型命名为云山(云山)。基于OpenCompass评测框架,笔者首先在财经类的FinancelQ数据集上进行评测。

表6:不同模型在FinancelQ LQ数据集上的评估结果

从表6可以看出,与其他通用基础模式、金融和法律垂直模式相比,云山模式在注册会计师、银行从业资格等10项任务中显示出明显的优势。作者还对FinEval财经数据集进行了评价。

表7:不同模型对财经FinEval数据集的评估结果

从表7可以看出,与其他模型相比,云山模型在会计和资格证书两个子任务上优势明显,在加权平均分中获得最高分。

此外,研究小组还评估了关于法律任务的法官席数据集。

表8:不同模型对法律工作台数据集的评估结果

在表8中,云山模型在法律知识记忆、法律知识理解和法律知识应用三个子任务上都取得了较高的分数,说明了作者提出的方法的有效性。

更多研究细节,请参考原论文。

剧终

未经允许不得转载:科技让生活更美好 » 挑战Transformer,华为诺亚新架构盘古π来了,已有1B、7B模型