谷歌发布最新「读屏」AI!PaLM 2-S自动生成数据,多项理解任务刷新SOTA

新智元报道。

编辑:桃子

【新智元简介】谷歌在语言和声控计算机界面的漫长道路上又迈出了重要一步。最新的ScreenAI可视化语言模型可以完成QA问答、总结等各种任务。

每个人都想要的大模型是真实和智能的那种。……

不,谷歌团队制造了一个强大的“读屏”人工智能。

研究人员称之为ScreenAI,这是一种全新的视觉语言模型,用于理解用户界面和信息图。

地址:https://arxiv.org/pdf/2402.04615.pdf.

ScreenAI的核心是一种新的屏幕截图的文本表示方法,可以识别UI元素的类型和位置。

值得一提的是,研究人员使用谷歌语言模型PaLM 2-S生成合成训练数据,以回答有关屏幕信息、屏幕导航和屏幕内容摘要的问题。

例如,如果你打开一个音乐APP页面,你可以问“有多少首歌曲的长度小于30秒”?

ScreenAI给出了一个简单的答案:1。

另一个例子是命令ScreenAI打开菜单,可以选择该菜单。

建筑的灵感-巴利

ScreenAI模型架构如图1所示。研究人员的灵感来自PaLI系列模型架构,该架构由多模态编码器块组成。

编码器模块包括一个类似于ViT的视觉编码器,一个用于消费图像和文本输入的mT5语言编码器,后面是一个自回归解码器。

视觉编码器将输入图像转换为一系列嵌入内容,这些嵌入内容与输入文本嵌入内容相结合并输入到mT5语言编码器。

编码器的输出被传递到解码器以生成文本输出。

这个泛化公式可以使用相同的模型架构来解决各种视觉和多模态任务。这些任务可以重新表述为文本+图像(输入)到文本(输出)的问题。

与文本输入相比,图像嵌入构成了多模态编码器输入长度的重要组成部分。

简而言之,该模型使用图像编码器和语言编码器提取图像和文本特征,然后将其融合并输入解码器以生成文本。

这种构造方法可广泛应用于图像理解等多模态任务。

此外,研究人员进一步扩展了PaLI的编码器-解码器架构,以接受各种图像分块模式。

原始的PaLI架构只接受具有固定网格模式的图像块来处理输入图像。然而,研究人员在屏幕相关领域遇到的数据跨越了各种分辨率和宽高比。

为了使单一模型适应所有屏幕形状,有必要使用适合各种形状图像的分块策略。

为此,谷歌团队借用了Pix2Struct中引入的一项技术,该技术允许根据输入图像形状和预定义的最大块数生成具有任意网格形状的图像块,如图1所示。

这样,它可以适应具有各种格式和纵横比的输入图像,而无需填充或拉伸图像来固定其形状,从而使模型更具通用性,并能够同时处理移动设备(即纵向)和台式计算机(即横向)的图像格式。

模型配置

研究人员训练了三个不同尺寸的模型,包括670米、2B和5B参数。

对于670M和2B参数模型,研究人员从视觉编码器和编码器-解码器语言模型的预训练单峰检查点开始。

对于5B参数模型,启动了PaLI-3的多模态预训练检查点,其中ViT与基于UL2的编解码器语言模型一起训练。

表1显示了视觉模型和语言模型之间的参数分布。

自动数据生成

研究人员表示,模型开发的预训练阶段在很大程度上取决于对大型和多样化数据集的访问。

然而,手动标注大范围的数据集是不切实际的,因此谷歌团队的策略是自动生成数据。

该方法使用专门的小模型,每个模型都擅长高效准确地生成和标记数据。

与人工标注相比,这种自动化方法不仅高效、可扩展,而且保证了一定程度的数据多样性和复杂性。

第一步是让模型充分理解文本元素、各种屏幕组件及其整体结构和层次结构。这种基本理解对于模型准确解释各种用户界面并与之交互的能力至关重要。

在这里,研究人员通过爬虫应用程序和网页从各种设备(包括台式机、移动设备和平板电脑)收集大量屏幕截图。

然后,这些截图将被贴上详细的标签,这些标签描述了UI元素、它们的空关系和其他描述性信息。

此外,为了给预训练数据注入更多的多样性,研究人员还利用语言模型尤其是PaLM 2-S的能力分两个阶段生成QA对。

首先,生成之前描述的屏幕模式。随后,作者设计了一个包含屏幕模式的提示来指导语言模型生成合成数据。

经过几次迭代后,可以确定有效生成所需任务的提示,如附录C所示..

为了评估这些生成的响应的质量,研究人员手动验证了数据的一个子集,以确保满足预定的质量要求。

图2描述了这种方法,它大大提高了预训练数据集的深度和广度。快播怎么看片啊

利用这些模型的自然语言处理能力并结合结构化屏幕模式,我们可以模拟各种用户交互和场景。

黄贵洲 潮汕

两组不同的任务

接下来,研究人员为模型定义了两项不同的任务:一项初始预训练任务和一项后续微调任务。

这两个群体的区别主要在于两个方面:

-真实数据来源:对于微调任务,由人工评估人员提供或验证标记。对于预训练任务,使用自监督学习方法推断标签或使用其他模型生成标签。

-数据集的大小:预训练任务通常包含大量样本,因此这些任务用于通过更广泛的一系列步骤来训练模型。

表2显示了所有训练前任务的总结。

在混合数据中,数据集的权重与其大小和每个任务允许的最大权重成比例。

多模态源被纳入多任务训练中,从语言处理到视觉理解和网页内容分析,使模型能够有效地处理不同的场景,并增强其整体通用性和性能。

研究人员在微调过程中使用各种任务和基准来估计模型的质量。表3总结了这些基准,包括现有的主屏幕、信息图和文档理解基准。

实验结果海尔小神童e2故障

图4显示了ScreenAI模型的性能,并将其与屏幕和信息图相关的各种任务的最新SOT结果进行了比较。

你可以看到ScreenAI在不同任务上的领先表现。

在表4中,研究人员展示了使用OCR数据进行单任务微调的结果。

对于QA任务,添加OCR可以提高性能(例如,在复杂的ScreenQA、MPDocVQA和InfoVQA上提高了4.5%)。

但是,使用OCR会略微增加输入长度,从而导致整体训练速度变慢。它还需要在推理过程中获得OCR结果。

此外,研究人员还使用以下模型规模进行了单任务实验:6.7亿个参数、20亿个参数和50亿个参数。

在图4中可以观察到,对于所有任务,增加模型规模可以提高性能,并且在最大规模下的改进并不饱和。

对于需要更复杂的视觉文本和算术推理的任务(如InfoVQA、ChartQA和Complex ScreenQA),20亿参数模型和50亿参数模型之间的改进明显大于6.7亿参数模型和20亿参数模型之间的改进。

最后,图5表明,对于长宽比》1.0的图像(风景模式图像),pix2struct分割策略明显优于固定网格分割。

对于肖像模式图像,趋势相反,但固定网格分割仅略好于此。

鉴于研究人员希望ScreenAI模型可以用于不同纵横比的图像,他们选择使用pix2struct分割策略。

谷歌研究人员表示,ScreenAI模型需要在一些任务上进行更多研究,以缩小与GPT-4和Gemini等更大模型的差距。

参考资料:

https://the-decoder . com/Google s-screenai-relially-navigates-smart phone-screens/

未经允许不得转载:科技让生活更美好 » 谷歌发布最新「读屏」AI!PaLM 2-S自动生成数据,多项理解任务刷新SOTA