北大、腾讯推出 ReVideo：通过动作和内容精确编辑视频

本周值得关注的大模型/AIGC前沿研究；

想要第一时间获取每日最新大模型热门论文？扫描下方二维码，加入「大模型技术分享群」。或点击“阅读原文”，获取「2024 必读大模型论文」合集（包括日报、周报、月报，持续更新中～）。

1.新1。麻省理工学院研究:并非所有语言模型特征都是线性的。

最近的研究提出了线性表示假设:语言模型通过操纵空中概念的一维表示（“特征”）来执行计算。相比之下，来自麻省理工学院（MIT）的研究团队探索了一些语言模型表示在本质上是否可能是多维的。

他们首先给出了不可约多维特征的严格定义，该定义基于这些特征是否可以分解为独立或非共存的低维特征。受这些定义的启发，他们设计了一种可扩展的方法，通过使用稀疏自动编码器自动发现GPT-2和Mistral 7B中的多维特征。这些自动发现的特征包括可解释的示例，例如表示周和月的圆形特征。他们确定了一些任务，其中这些精确的循环用于解决涉及一周几天和一年几个月的模块化操作问题。最后，通过Mistral 7B和Llama 3 8B的干预实验，他们证明了这些圆形特征确实是这些任务中的基本计算单元。

纸质链接:

https://arxiv.org/abs/2405.14860

GitHub地址:

https://github.com/JoshEngels/MultiDimensionalFeatures

2.大型语言模型分布式推测的加速。

大型语言模型的推理是人工智能领域的一个重要挑战。

来自魏茨曼科学研究所、英特尔和麻省理工学院（MIT）的研究团队提出了一种新颖的分布式推理算法——分布式推理（DSI），该算法比推测推理（SI）和传统的自回归推理（non-SI）更快。与其他自回归推理算法一样，DSI在冻结的LLM上工作，无需训练或修改架构，并且可以保持目标分布。

先前对SI的研究表明，DSI算法的经验速度比非SI算法更快，但它需要快速准确地绘制LLM。在实践中，现成的LLM通常没有快速准确的匹配绘图仪。他们发现当使用较慢或不太精确的绘图仪时，SI的速度比非SI的速度慢。他们通过证明在使用任何绘图仪时DSI都比SI和非SI更快来弥补这一差距。通过协调目标和起草者的多个实例，DSI不仅比SI快，而且还支持SI无法加速的LLM。仿真表明，在真实环境中，现成的LLMs的速度得到了提高:DSI比SI快1.29-1.92倍。

纸质链接:

https://arxiv.org/abs/2405.14105

3.北京大学和腾讯推出了ReVideo:通过动作和内容精确编辑视频。

尽管使用扩散模型生成和编辑视频已经取得了很大进展，但实现精确的本地化视频编辑仍然是一个巨大的挑战。此外，现有的大多数视频编辑方法主要集中在改变视觉内容上，而对动作编辑的研究非常有限。

在这项研究中，来自北京大学和腾讯的研究团队及其合作者提出了一种新颖的“重视频”尝试，可以通过指定内容和动作来精确编辑特定区域的视频。内容编辑通过修改第一帧来实现，而基于轨迹的运动控制提供了直观的用户交互体验。ReVideo解决了内容和运动控制之间的耦合和训练不平衡问题。为了解决这个问题，他们制定了三阶段训练策略，将这两个方面由粗到细逐步解耦。此外，他们还提出了一个time空自适应融合模块，以集成空之间不同采样步骤和位置的内容和运动控制。

大量实验证明，ReVideo在几个精确的视频编辑应用程序中具有良好的性能，即:1）在保持动作不变的情况下局部更改视频内容；2）保持内容不变，同时自定义新的运动轨迹；3）同时修改内容和动作轨迹。该方法还可以无缝地将这些应用程序扩展到多区域编辑，而无需特殊训练，这证明了其灵活性和鲁棒性。

纸质链接:

https://arxiv.org/abs/2405.13865

项目地址:

https://mc-e.github.io/project/ReVideo/

4.GameVLM:基于视觉语言模型和零和博弈的机器人任务规划决策框架。

预训练的视觉语言模型（VLM）如GPT-4V具有出色的场景理解和推理能力，因此在机器人任务规划中受到越来越多的关注。与传统的任务规划策略相比，可视化语言模型在多模态信息分析和代码生成方面具有很强的优势，并表现出显著的效率。尽管VLM在机器人任务规划方面显示出巨大的潜力，但它也面临着诸如错觉、语义复杂性和有限上下文等挑战。

为了解决这些问题，复旦大学的研究团队提出了一个多智能体框架-博弈VLM，该框架增强了机器人任务规划中的决策过程。在本研究中，提出了基于VLM的决策智能体和专家智能体来执行任务规划。具体来说，决策代理用于规划任务，专家代理用于评估这些任务计划。引入零和博弈理论解决不同主体之间的不一致性，确定最优解。在真实机器人上的实验结果表明，该框架非常有效，平均成功率高达83.3%。

纸质链接:精灵虚拟光驱怎么安装

https://arxiv.org/abs/2405.13751

5.AlignGPT:一个具有自适应对齐功能的多模态大规模语言模型。

多模态大型语言模型被广泛认为是探索通用人工智能（AGI）的关键。MLLM的核心在于其实现跨模态比对的能力。为了实现这一目标，目前的MLLM通常采用两阶段训练模式:预训练阶段和指令微调阶段。

尽管这些模型是成功的，但在对齐能力的建模方面仍存在一些缺点。首先，在预训练阶段，模型通常假设所有的图文对都是一致对齐的，但实际上，不同图文对之间的对齐程度并不一致。其次，目前用于微调的指令包括多种任务，不同任务的指令通常需要不同程度的对齐能力，但之前的MLLM忽略了这些差异化的对齐要求。

为了解决这些问题，南京大学的研究团队提出了一种新的多模态大规模语言模型——Align GPT。在预训练阶段，他们不会平等地对待所有图像-文本对，而是为不同的图像-文本对分配不同级别的对齐能力。然后，在指令微调阶段，他们自适应地组合这些不同级别的对齐功能，以满足不同指令的动态对齐要求。大量实验结果表明，AlignGPT在12个基准测试中取得了具有竞争力的性能。

纸质链接:

https://arxiv.org/abs/2405.14129

项目地址:

https://aligngpt-vl.github.io/

6.清华团队推出了DisenStudio:可定制的多智能体文本到视频生成。

最近，在视频中生成定制内容引起了越来越多的关注。然而，现有的工作主要集中在为单个主题生成定制的文本到视频。当视频预计包含多个主体时，会出现主体缺失和属性绑定的问题。此外，现有模型难以将所需动作分配给相应的智能体（动作绑定问题），因此无法实现令人满意的多智能体生成性能。

为了解决这些问题，清华大学的研究团队提出了一个新颖的框架DisenStudio，该框架可以为多个主题生成定制的文本导向视频，每个主题只需几幅图像。

具体来说，DisenStudio通过使用空之间分离的交叉注意力机制来增强基于扩散的预训练文本到视频模型，从而将每个主体与所需的动作联系起来。然后，使用运动预留分离微调技术为多智能体定制模型，包括三种微调策略:多智能体同现微调、屏蔽单智能体微调和多智能体运动预留微调。前两种策略可以确保对象的外观并保留其视觉属性，而第三种策略可以帮助模型在微调静态图像时保持其时间运动生成能力。

大量实验证明，DisenStudio在各项指标上明显优于现有方法，可作为各种可控发电应用的有力工具。

纸质链接:

https://arxiv.org/abs/2405.12796

7.在扩散世界模型中训练强化学习代理。

世界模型是一种很有前途的方法，可以用来以一种安全有效的方式训练强化学习代理。最新的世界模型主要通过离散的潜在变量序列来模拟环境动态。然而，这种紧凑的离散表示可能会忽略对强化学习非常重要的视觉细节。同时，扩散模型已成为图像生成的主流方法，对成熟的离散隐变量建模方法提出了挑战。

在这种范式转变的推动下，来自日内瓦大学、爱丁堡大学和微软的研究团队推出了Diamond（Diffusion as a model of environment dreams），这是一种在扩散世界模型中训练的强化学习智能体。

他们分析了使扩散适用于世界建模所需的关键设计选择，并演示了改善视觉细节如何提高代理性能。在竞争激烈的Atari 100k基准测试中，DIAMOND获得了1.46的标准化平均分数。这是完全在世界模型中训练的代理人的新的最佳成就。

纸质链接:

https://arxiv.org/abs/2405.12399

GitHub地址:

https://github.com/eloialonso/diamond

8.麻省理工学院新研究:通过跨层关注减少变压器键缓存的大小

键值缓存在加速基于Transformer的自回归大型语言模型解码过程中起着重要作用。然而，在长序列长度和大批量的情况下，存储KV缓存所需的内存量可能会变得过大。

自从Transformer提出以来，减少KV缓存大小的两种最有效的干预措施是多查询注意（MQA）和分组查询注意（GQA）。MQA和GQA都修改了关注块的设计，使多个查询头可以共享一个键/值头，从而大幅减少不同键/值头的数量，并将准确性降至最低。

在这项工作中，来自麻省理工学院（MIT）的研究团队展示了通过在相邻层之间共享密钥和值头来进一步促进MQA的可能性，从而产生了一种新的注意力设计-跨层注意力（CLA）。通过CLA，他们发现KV缓存的大小可以减少2倍，同时保持与未经修改的MQA几乎相同的精度。在从零开始训练1B参数模型和3B参数模型的实验中，CLA对传统MQA的内存/准确性权衡进行了帕累托改进，使推理序列更长，批量规模更大，这在其他情况下是不可能的。

纸质链接:

https://arxiv.org/abs/2405.12981

9.大规模语言模型的元认知能力:数学问题解决的探索

元认知知识是指人类对自身思维和推理过程的直观认识。今天的大型语言模型（LLM）显然有一些推理过程。来自这篇论文的证据表明，LLMs还具有元认知知识，包括在给定任务中讲述应用技能和程序的能力。

来自蒙特利尔大学、谷歌DeepMind、普林斯顿大学和剑桥大学的研究团队主要从数学推理的角度讨论了这一问题，并开发了一个提示引导的交互程序，该程序允许强大的LLM为数学问题分配合理的技能标签，然后使其进行语义聚类，从而获得一系列更粗略的技能标签。这些粗糙的技能标签可以向人类解释。

为了验证这些技能标签是否有意义以及是否与LLM的推理过程相关，他们进行了以下实验:1）要求GPT-4为数学数据集GSM8K和MATH中的训练问题分配技能标签；2）在使用LLM解决测试问题时，为其提供完整的技能标签列表，并要求其识别所需的技能。然后，他们会随机向其展示与技能标签相关的演示解题。

该方法提高了GSM8k和MATH上几个LLM（包括代码辅助模型）的准确性。虽然本文将其应用于数学问题，但所介绍的方法与该领域无关。

纸质链接:

https://arxiv.org/abs/2405.12205

10.Octo:开源通用机器人政策

在各种机器人数据集上预先训练的大规模策略可能会改变机器人的学习模式:这种通用机器人策略不需要从头开始训练新策略，而是可以用领域中的少量数据进行微调，具有广泛的通用性。然而，为了广泛适用于各种机器人学习场景、环境和任务，这些策略需要处理不同的传感器和动作空，适应各种常用的机器人平台，并根据新的领域随时高效地进行微调。

在这项工作中，来自加州大学伯克利分校、斯坦福大学、卡内基梅隆大学和谷歌DeepMind的研究团队及其合作者旨在为开发一种开源且广泛适用的机器人操纵通用策略奠定基础。作为第一步，他们提出了一个基于transformer-OCTO的大规模策略，该策略在迄今为止最大的机器人操纵数据集Open X-embody数据集的800k轨迹上进行训练。它可以通过语言命令或目标图像进行引导，并可以在标准的消费级GPU上进行有效的微调，从而适应具有新感官输入和动作空的机器人设置。

在跨越九个机器人平台的实验中，Octo已被证明是一种多功能策略初始化工具，可以根据新的观察和动作空进行有效的微调。他们还详细分析了Octo模型的设计决策（从架构到训练数据），以指导未来建立通用机器人模型的研究。

纸质链接:

https://arxiv.org/abs/2405.12213

项目地址:

https://octo-models.github.io/

11.OpenRLHF:一个易于使用、可扩展的高性能RLHF框架。

随着大规模语言模型通过标度律的不断增长，基于人类反馈的强化学习（RLHF）因其优异的性能而备受关注。然而，与单个模型的预训练或微调不同，扩展RLHF以训练大规模语言模型对四个模型的协调提出了挑战。

来自OpenLLMAI、字节跳动、网易和阿里的研究团队提出了一个开源框架OpenRLHF，可以实现RLHF的高效扩展。

现有的RLHF框架将四个模型放在同一个GPU上。与此不同的是，OpenRLHF通过使用Ray、vLLM和DeepSpeed重新设计了具有70B以上参数的模型调度，提高了资源利用率并采用了多种训练方法。OpenRLHF与Hugging Face无缝集成，提供了带有优化算法和启动脚本的开箱即用解决方案，确保了用户友好性。OpenRLHF实现了RLHF、DPO、抽取和其他注册技术。

纸质链接:

https://arxiv.org/abs/2405.11143

项目地址:

https://github.com/OpenLLMAI/OpenRLHF

12.MoRA:高阶更新，可高效微调参数。

对于大规模语言模型的流行参数，Low-rank是一种高效的微调方法。

在这项工作中，来自北京航空航天大学空和微软的研究团队分析了LoRA中低级更新的影响。结果表明，低阶更新机制可能会限制LLM有效学习和记忆新知识的能力。

受此启发，他们提出了一种称为MoRA的新方法，该方法使用方阵来实现高阶更新，同时保持相同数量的可训练参数。为了实现这一目标，他们引入了相应的非参数算子，以降低输入维数并增加方阵的输出维数。此外，这些操作符确保权重可以合并回LLM，这使得该方法可以像LoRA一样部署。

他们在五项任务中全面评估了该方法:指令微调、数学推理、连续预训练、记忆和预训练。在内存密集型任务中，该方法优于LoRA，在其他任务中，它也取得了可观的性能。

纸质链接:

https://arxiv.org/abs/2405.12130

13.基于LLM的多智能体强化学习综述

近年来，大规模语言模型（LLM）在各种任务中显示出强大的能力，包括问题解决、算术问题解决和诗歌写作。尽管对LLM-as-an-agent的研究表明LLM可以应用于强化学习（RL）并取得了良好的效果，但由于单个agent的RL框架没有考虑agent之间的协调和通信，因此将基于LLM的RL扩展到多agent系统（MAS）并不容易。

为了激发更多基于LLM的多智能体强化学习研究，来自Rutgers大学的研究团队调查了现有的基于LLM的单智能体和多智能体的RL框架，并为未来的研究提供了潜在的研究方向。他们特别关注具有共同目标的多个智能体的合作任务及其通信。

陈翔个人资料简介毛晓彤

纸质链接:

https://arxiv.org/abs/2405.11106

14.斯坦福大学和多伦多大学提出了可观测标度律。

了解语言模型的性能如何随规模变化对基准测试和算法开发非常重要。标度律是建立这种理解的一种方法，但它的使用受到限制，因为它需要在许多不同的尺度上训练模型。

斯坦福大学和多伦多大学的研究团队提出了另一种观察方法，即绕过模型训练，从约80个公开可用的模型中建立标度律。由于几个模型系列之间在训练计算的效率和能力方面存在很大差异，因此从这些模型系列中建立单个标度律具有挑战性。然而，他们的研究表明，这些差异与简单的广义标度定律一致，即语言模型的性能是低维能力空的函数，而模型族仅在将训练计算转化为能力的效率上有所不同。

利用这种方法，他们展示了复杂标度现象令人惊讶的可预测性:他们表明，几种新兴现象遵循平滑的S形增长模型，可以从小模型中预测；它表明GPT-4和其他模型的代理性能可以从更简单的非代理基准中准确预测；它还显示了如何预测思维链和自我一致性等训练后干预措施随着语言模型能力的不断提高而产生的影响。

纸质链接:

https://arxiv.org/abs/2405.10938

15.概述:高效的多模态大型语言模型

在过去的一年中，多模态大语言模型（MLLMs）在视觉问题解决、视觉理解和推理等任务中表现出了出色的性能。然而，庞大的模型规模和高昂的训练和推理成本阻碍了MLLM在学术界和工业界的广泛应用。因此，高效轻量级MLLM的研究具有巨大的潜力，尤其是在边缘计算场景中。

在这项工作中，来自腾讯、上海交通大学、北京致远人工智能研究院和华东师范大学的研究团队对高效MLLM的现状进行了全面系统的回顾。具体而言，他们总结了具有代表性的高效MLLM的时间线、高效结构和策略的研究现状和应用。最后，他们讨论了当前高效MLLM研究的局限性和未来的发展方向。

纸质链接:

https://arxiv.org/abs/2405.10739

GitHub地址:

https://github . com/liji年金ist/Efficient-Multimodal-LLMs-Survey

16.剑桥大学的新研究:大型模型的预训练依赖于“联邦学习”

生成式预训练大型语言模型（LLM）在各种任务中表现出令人印象深刻的性能，这归功于它们训练的前所未有的数据量。正如既定的缩放定律所示，LLMs未来的性能改进取决于我们可以用于预训练的计算量和数据源。联邦学习（FL）可能会释放地球上的大部分数据和计算资源，但在当前的LLM实践中，以数据中心为中心的训练方法并没有充分利用这些资源。

来自剑桥大学的研究团队提出了一种健壮、灵活、可重复的FL方法，在训练LLM时可以实现跨机构的大规模合作。这将调动更多的计算和数据资源，同时实现或可能超过集中式性能。他们进一步证明了联合训练的有效性随着模型规模的扩大而扩大，并介绍了他们利用有限资源训练十亿级联合LLM的方法。

纸质链接:

https://arxiv.org/abs/2405.10853非一般的青春聚会

17.超越静态AI评估:针对LLM危害和风险的人机交互评估。

模型评估对于理解人工智能系统的安全、风险和社会影响至关重要。尽管现实世界中的大多数人工智能应用都涉及人类与人工智能之间的交互，但目前大多数人工智能模型的评估（如通用基准）都没有涉及人类与人工智能之间的交互。相反，它们以有限的方式考虑了人的因素，并孤立地评估模型的安全性，因此未能捕捉到人与模型之间交互的复杂性。

在这项工作中，来自牛津大学、人工智能治理中心、集体智能项目和OpenAI的研究团队讨论了一个新的评估类别——“人机交互评估”（HIEs）并从操作角度对其进行了定义。该类别侧重于评估人机交互或人类使用模型的过程和结果。

首先，他们认为人机交互评估可以用于提高安全评估的有效性，评估对人类的直接影响和特定交互的危害，并指导未来对模型社会影响的评估。其次，他们提出了一个以安全为重点的HIE设计框架-包括人与LLM之间相互作用的分类-该框架分为三个阶段:（1）确定风险或危险区域；②描述使用环境；（3）选择评价参数。然后，他们将这个框架应用于过度依赖和说服风险的两个潜在评估。最后，他们针对HIE的成本、可重复性和缺乏代表性等问题提出了切实可行的建议。

纸质链接:

https://arxiv.org/abs/2405.10632

|点击关注我记得那颗星|

未经允许不得转载：科技让生活更美好 » 北大、腾讯推出 ReVideo：通过动作和内容精确编辑视频｜大模型周报

北大、腾讯推出 ReVideo：通过动作和内容精确编辑视频｜大模型周报

作者：pu

相关推荐