纯文本模型训出「视觉」表征!MIT最新研究:语言模型用代码就能作画

新智元报道。

编辑:LRS

【新智元简介】没有图像,仅靠文字就能训练视觉概念表征?通过编写代码来阅读图片,您可以了解形状,对象和场景!

一个只会“读”的大型语言模型对真实世界有视觉感知能力吗?通过对字符串之间的关系建模,语言模型可以了解视觉世界的什么?

最近,麻省理工学院计算机科学与人工智能实验室(MIT CSAIL)的研究人员系统地评估了语言模型的视觉能力,从简单的形状和物体到复杂的场景,这些都需要模型不断生成和识别更复杂的视觉概念,并演示了如何使用纯文本模型训练一个初步的视觉表征学习系统。

论文链接:https://arxiv.org/abs/2401.01862

因为语言模型不能以像素的形式输入或输出视觉信息,所以在研究中使用代码来呈现和表示图像。

虽然LLM生成的图像看起来不像自然图像,但从生成的结果和模型的自我校正来看,字符串/文本的精确建模可以教会语言模型许多关于视觉世界的概念。

此外,研究人员还探索了如何使用文本模型生成的图像进行自监督视觉表示学习,结果也显示了其作为视觉模型训练的潜力,后者只能使用LLM来评估自然图像的语义。

语言模型的视觉概念

我们先问一个问题:人们理解“青蛙”的视觉概念意味着什么?

知道它的肤色、有几只脚、眼睛的位置和跳跃的方式就足够了吗?边听边翻译英语的软件

一般认为,要直观地理解青蛙的概念,我们需要观察青蛙的形象,并从不同的角度和各种现实场景中观察它。

如果只观察文本,我们能在多大程度上理解不同概念的视觉含义?

从模型训练的角度来看,大规模语言模型(LLM)的训练输入仅为文本数据,但已经证明该模型可以理解关于形状和颜色等概念的信息,甚至可以线性转换为视觉模型的表示。

换句话说,视觉模型和语言模型在世界表征上非常相似。

然而,现有的大多数模型表示方法都是基于一组预先选择的属性来探索模型编码了什么信息。这种方法不能动态扩展属性,还需要访问模型的内部参数。

所以研究人员问了两个问题:

1.语言模型对视觉世界了解多少?

2.你能通过“仅使用文本模型”来训练一个可用于自然图像的视觉系统吗?

为了找到答案,研究人员通过测试不同语言模型在渲染(即绘制)和识别(即看到)真实世界中的视觉概念来评估模型中包含哪些信息,从而实现了测量任意属性的能力,而无需为每个属性单独训练特征分类器。

虽然语言模型不能生成图像,但像GPT 4这样的大型模型可以生成渲染对象的代码。代码-》;图像的过程逐渐增加了渲染对象的难度,以衡量模型的能力。

研究人员发现,LLM惊人地擅长生成由多个对象组成的复杂视觉场景,并可以高效地对空之间的关系进行建模,但它无法很好地捕捉视觉世界,包括对象的属性,如纹理、精确形状以及与图像中其他对象的表面接触。

本文还评估了LLM识别感知概念的能力,输入代码表示的绘画,其中包括形状的顺序、位置和颜色,然后要求语言模型回答代码中描述的视觉内容。

实验结果表明,LLM恰恰与人类相反:对于人来说,编写代码的过程很困难,但验证图像内容很容易;该模型很难解释/识别代码的内容,但它可以生成复杂的场景。

此外,研究结果还证明了基于文本的批改可以进一步提高语言模型的视觉生成能力。

研究人员首先使用语言模型生成的代码来解释概念,然后不断输入提示“改进其生成的代码”作为修改代码的条件。最后,模型可以通过这种迭代的方式来改善视觉效果。

视觉能力数据集:指向场景

研究人员构建了三个文本描述数据集来衡量模型创建、识别和修改图像渲染代码的能力,它们的复杂性从低到高排列,即简单的形状和组合、对象和复杂的场景。

1.图形及其构成(形状及其构成)

包含不同类别的形状,如点、线、2D形状和3D形状,具有32种不同的属性,如颜色、纹理、位置和空之间的排列。

完整的数据集包含超过400,000个样本,其中1,500个样本用于实验测试。20年20次 片仔癀价格凭什么狂涨

2.目标

包含ADE 20K数据集的1000个最常见的对象更难生成和识别,因为它们包含更复杂的形状组合。

3.景色

它由复杂的场景描述组成,包括多个对象和不同位置,这些场景描述是通过从MS-COCO数据集中随机均匀采样1000个场景描述而获得的。

数据集中的视觉概念都是用语言描述的。例如,该场景被描述为“一个阳光明媚的夏日,沙滩上有蓝天和平静的海洋”。pdpa法案

在测试过程中,LLM需要根据所描绘的场景生成代码并编译渲染图像。

实验结果

评估模型的任务主要由三项任务组成:

1.生成/绘制文本:评估LLM生成与特定概念对应的图像渲染代码的能力。

2.识别/查看文本:测试LLM在识别由代码表示的视觉概念和场景方面的性能。我们在每个模型上测试人类绘画的代码表示。

3.使用文本反馈纠正绘图:评估LLM使用自己的自然语言反馈迭代修改其生成的代码的能力。

测试中对模型输入的提示是:用绘制【概念】的编程语言【编程语言名称】编写代码。

然后根据模型的输出代码进行编译和渲染,并评估生成图像的视觉质量和多样性:

1.保真度

通过检索图像的最佳描述来计算生成的图像和真实描述之间的保真度。首先,使用剪辑分数来计算每个图像与同一类别(形状/对象/场景)中所有潜在描述之间的一致性,然后以百分比的形式报告真实描述的排名(例如,100%的分数意味着真实概念排名第一)。

2.多样性

为了评估模型呈现不同内容的能力,在表示相同视觉概念的图像对上使用LPIPS多样性得分。

3.现实主义

对于来自ImageNet的1K图像样本集,弗雷歇入射距离(FID)用于量化自然图像和LLM生成图像之间的分布差异。

在对比实验中,使用通过稳定扩散获得的模型作为基线。

LLM可以可视化什么?

研究结果表明,LLM可以从整个视觉层面将现实世界的概念可视化,将两个不相关的概念(例如汽车形状的蛋糕)组合在一起,生成视觉现象(例如模糊的图像),并尝试正确解释空之间的关系(例如水平排列一排自行车)。

不出所料,从CLIP score的结果来看,模型的能力会随着从形状到场景的概念复杂度的增加而下降。

对于更复杂的视觉概念,例如绘制具有多个对象的场景,当使用processing和tikz绘制具有复杂描述的场景时,GPT 3.5和GPT 4比python-matplotlib和python-turtle更准确。

对于物体和场景,剪辑分数显示,包括“人”、“车辆”和“户外场景”在内的概念最容易绘制。这种渲染复杂场景的能力来自于渲染代码的表现力、每个场景中模型的编程能力以及所涉及的不同概念的内部表示质量。

什么是LLM无法想象的?

在某些情况下,即使是一个相对简单的概念也很难得出,研究人员总结了三种常见的故障模式:

1.语言模型无法处理一组形状和特定空空间组织的概念;

2.这幅画很粗糙,缺乏细节,这在达芬奇中最常出现,尤其是在使用matplotlib和turtle编码时;

3.描述不完整、损坏或仅代表一个概念的子集(典型场景类别)。

4.所有模型都不能抽到数字。

多样性和保真度

语言模型展示了生成同一概念的不同可视化的能力。

为了生成同一场景的不同样本,比较了两种策略:

1.从模型中重复采样;

2.示例参数化函数,它允许您通过更改参数来创建概念的新绘图。

该模型呈现视觉概念多元化实现的能力体现在较高的LPIPS多样性得分上;生成不同图像的能力表明,LLM可以以多种方式表示视觉概念,而不限于有限的原型集。

LLM生成的图像远不如自然图像逼真。与稳定扩散相比,该模型在FID指数上得分很低,但现代模型的性能优于旧模型。

从文本中学习视觉系统

培训和评估

研究人员使用通过无监督学习获得的预训练视觉模型作为网络的主干,并使用MoCo-v2方法在LLM生成的130万个384×384图像数据集上训练ResNet-50模型,共有200个epoch。训练后,使用两种方法来评估在每个数据集上训练的模型的性能:

1.在由ImageNet-1 k分类的冻结树干上训练线性层100历元,

2.在ImageNet-100上使用5最近邻(kNN)进行搜索。

从结果可以看出,仅通过训练LLM生成的数据获得的模型可以在不训练线性层的情况下为自然图像提供强大的表示能力。

结果分析

研究人员将LLM生成的图像与现有程序(包括dead-levaves、fractals和StyleGAN等简单生成程序)生成的图像进行了比较,以生成高度多样化的图像。

从结果来看,LLM方法优于自回归和分形方法,但并不理想;;在人工检查数据后,研究人员将这种劣势归因于大多数LLM生成的图像缺乏纹理。

为了解决这个问题,研究人员将machine Shaders-21k数据集与从LLM获得的样本相结合,以生成纹理丰富的图像。

从结果可以看出,该方案可以大大提高性能,优于其他基于程序生成的方案。

参考资料:

https://arxiv.org/abs/2401.01862

未经允许不得转载:科技让生活更美好 » 纯文本模型训出「视觉」表征!MIT最新研究:语言模型用代码就能作画