AI 变鉴片大师,星际穿越都能看懂!贾佳亚团队新作,多模态大模型挑战超长 3 小时视频

什么?AI可以自己看电影?

佳佳雅团队的最新研究成果,让大模型直接学会处理长视频。

扔给它一部科幻大片《星际穿越》(长2小时49分钟):

它“观看”后,不仅可以结合影片的情节和人物轻松评论影片:

也能非常准确地回答剧中涉及的细节:

比如虫洞的功能和创造者是谁?

男子库珀是如何将黑洞中的信息传递给女儿墨菲的?

啊,这个,感觉电影博主的饭碗也会被AI抢走。

这是最新的多模态大模型LLaMA-VID,支持单画面、短视频、长视频三种输入。

相比之下,包括GPT-4V在内的类似型号只能处理图像。

而背后的原理更有意思。

据介绍,LLaMA-VID仅通过一种非常简单的方法就实现了上述能力,那就是:

代表每帧图像的标记的数量被压缩到只有两个。

具体效果如何,如何实现?我们一起看。

人物理解和分析,电影细节还可以。

对于电影,LLaMA-VID不仅能准确回答涉及的细节,还能准确理解和分析人物。

还是星际吧,让它分析一下米勒上相对地球时间的快慢和原因。

结果是绝对正确的:

拉玛-维德说,由于米勒行星靠近黑洞,一个小时相当于地球上的七年。

然后扔给阿甘,持续了近两个小时。

韩国冒险岛2

珍妮对阿甘来说意味着什么?对于这个问题,LLaMA-VID的回答是:

非同凡想照明

对于阿甘在战争中和事后的表现也可以分析,而答案也很到位:

上尉·丹责怪阿甘救了自己,因为这使他不可能在战斗中死去。

除了看电影,它还能成为无所不知的“电影伙伴”,还能很好地理解宣传片的意图,回答一些开放性的问题。

比如给它一个最近很火的GTA6预告片。

问它“这个游戏最吸引你的是什么?”,它“看到”给出的想法后:

一是游戏场景和设定多(从赛车、特技驾驶到射击等。),第二,视觉效果很惊艳。

哦,对了,LLaMA-VID还可以根据游戏中的场景和特点推断出预告片是Rockstar游戏公司的宣传:

并认可游戏的背景城市是迈阿密(根据夜生活、海滩等信息,以及作者提示游戏设定在佛罗里达后)。

最后,除了时长2-3小时的宣传片和电影,我们还来看看LLaMA-VID对最基本的画面信息的理解能力。

嗯,准确地认出这是一块有洞的布:

让它演《福尔摩斯》。面对这样一张房间内部的照片:

它可以通过在门上挂很多外套来分析房间的主人可能很忙/经常外出。

可以看出,LLaMA-VID对视频的精准解读是建立在这样的画面层面上的,但最关键的一点是它如何完成这么长时间的视频处理。

几行代码实现了单帧2令牌表示。

LLaMA-VID的关键创新是将每帧的令牌数量减少到非常低的水平,从而可以处理非常长的视频。

很多传统的多模态大模型对单幅图片编码的令牌太多,导致视频时间拉长后需要的令牌数量急剧增加,模型难以承受。

为此,研究团队重新设计了图像编码方法,使用上下文令牌和图像内容令牌对视频中单帧进行编码。

因此,认识到每个帧由两个令牌表示。

具体看LLaMA-VID的框架。

它只包含三个部分:

编解码器用于生成可视嵌入和文本指南功能。

根据特定的令牌生成策略来转换上下文令牌和图像内容令牌。

指令调整得到进一步优化。

根据指令,LLaMA-VID选择单个图像或视频帧作为输入,然后从大语言模型中生成答案。

这个过程从视觉编码器开始,它将输入帧转换成视觉帧嵌入。

然后文本解码器根据用户输入和图像编码器提取的特征生成与输入指令相关的跨模态索引(文本查询)。

然后利用上下文注意机制,聚合视觉嵌入中与文本相关的视觉线索,即特征采样和组合,从而生成高质量的指令相关特征。

为了提高效率,该模型将可视嵌入样本压缩到不同的令牌大小,甚至一个令牌。

其中,上下文令牌是根据用户输入的问题生成的,尽可能地保留了与用户问题相关的视觉特征。

图像内容令牌根据用户的指令直接对图像特征进行采样,更加关注图像本身的内容信息,补充上下文令牌没有关注的部分。

文本引导上下文标记和图像标记一起表示每个帧。

最后,大语言模型将用户指令和所有视觉令牌作为输入来生成答案。

而且,这个令牌的生成方法非常简单,只需要几行代码。

在实验结果方面,LLaMA-VID在多个视频问答和推理列表上实现了SOTA。

仅用一个上下文令牌扩展,LLaMA-VID也能在多图片问答指标上取得显著提升。

LLaMA-VID在16个视频、图片理解和推理数据集上取得了不错的成绩。

在GitHub上,团队提供了不同阶段的所有微调模型,以及第一阶段的预训练权重。

具体训练包括特征对齐、指令微调、长视频微调三个过程(相应步骤参考GitHub)。

此外,LLaMA-VID还收集了400部电影,生成了9K视频问答语料库,包括电影评论、人物成长、剧情推理等。

结合贾佳亚团队发布的长文本数据集LongAlpaca-12k(9k长文本问答语料库对和3k短文本问答语料库对),可以轻松扩展现有的多模态模型,支持长视频输入。rusty lake paradise攻略

值得一提的是,今年8月起,佳佳雅团队发布了LISA的多模态模型,该模型以推理和切分为主。

10月还发布了长文开源语言模型Long Alpaca(70亿参数)和长文扩展方法LongLoRA。

LongLoRA只需要两行代码就可以将7B模型的文本长度扩展到100k令牌,将70B模型扩展到32k令牌。

最后团队还提供了演示地址,可以让他们上传视频,用LLaMA-VID对话(部署在3090的单块中,需要的小伙伴可以参考代码用更大的显存部署,直接对话整部电影)。

看来以后看不懂诺兰电影了,可以找AI试试。

~

纸张地址:

https://arxiv.org/abs/2311.17043

GitHub地址:

https://github.com/dvlab-research/LLaMA-VID

演示地址:

http://103.170.5.190:7864/

本文来自微信微信官方账号:量子比特(ID: Qbitai),作者:丰色明敏。

未经允许不得转载:科技让生活更美好 » AI 变鉴片大师,星际穿越都能看懂!贾佳亚团队新作,多模态大模型挑战超长 3 小时视频