年龄两岁,教龄一年半:婴儿AI训练师登上Science

机器心脏报告

编辑:卢·齐家、张骞

只用 61 个小时的数据:人们终于证明了,利用当代 AI 工具,实现「真正的语言学习」是可行的。

图灵奖获得者Yann LeCun在公开采访中多次提到,与人类婴儿相比,当前AI模型的学习效率太低。那么,如果让一个AI模型学习一个婴儿戴着什么相机,它能学到什么?

近日,《科学》杂志上的一篇论文做了初步尝试。研究发现,即使数据有限,AI模型也可以从10到100个示例中学习单词和视觉对象之间的映射,并可以推广到零样本的新视觉数据集,并且可以实现多模态对齐。这表明,通过使用当今的人工智能工具,从婴儿的角度学习一种真正的语言是可能的。

他两岁了,已经教书一年半了。

山姆是如何教人工智能学习的?

这一次,人工智能通过以婴儿的视角观察世界来学习语言。

神经网络通过人类婴儿的视觉经验来学习自我识别物体,这为人类的学习提供了新的见解。

AI通过Sam头盔摄像头拍摄的音频和视频进行学习。有没有比较好的语音聊天软件

当婴儿听到“球”这个词时,他们如何将这个词的含义与一个圆形且有弹性的物体(即正确的视觉物体)联系起来?哲学家和认知科学家一致认为,当学习新单词时,婴儿需要从许多候选含义中挑选出正确的含义。

婴儿非常擅长学习词汇。在6到9个月大的时候,他们开始将单词与眼前的物体联系起来。当他们18到24个月大的时候,他们已经可以理解大约300个单词。

那么,孩子如何快速记住眼前物体的名称呢?他们如何建立物体的意义与其视觉之间的联系?这些问题都需要进一步的探索和研究。

此前,一些相关理论已在实验中得到验证。一些学者认为,单词学习是由一种简单的联想学习机制驱动的,这种机制可以串联各个领域。然而,这些理论通常是在婴儿的不同生长时期进行测量的,它们无法揭示一些促进单词学习的因素的相对重要性,也无法从中建立计算模型,并为计算机模型像人类一样获得学习能力提供指导。

如果模型可以通过儿童的眼睛和耳朵感知世界,那么它是否可以像解释人类词汇学习能力的联想学习理论一样,仅通过基于对象表征的联想学习来理解和整合对象的形状和语义?或者说,它是否需要其他认知能力,如归纳偏差来启动这种能力?

为了得到这些问题的答案,纽约大学的研究人员对最简单的词汇学习理论进行了前所未有的测试:他们将一架头戴式相机放在一个婴儿身上,检查该模型是否可以从相机的视频记录中学习单词与其视觉指代对象之间的映射关系。

来自澳大利亚的萨姆从6个月大到2岁左右,每周戴两个小时的相机(约占他醒着时间的1%)。

研究团队根据Sam的视频建立了SAYCam-S数据集。他们选择了61小时的视频,包括60万个视频帧和3.75万个转录录音,并记录了约25万个单词示例和相应的图像。这些图像是萨姆在玩耍、阅读和吃饭等活动中拍摄的。

基于这些数据,研究团队训练了神经网络,得到了儿童视角对比学习模型CVCL。CVCL采用比较学习的方法来学习哪些图像和文本经常一起出现,哪些不经常出现,从而获得预测某些单词所指图像的能力(如“球”和“碗”)。

研究发现,CVCL可以从孩子有限的经验中充分学习多模态表征。CVCL可以在分类任务中将一系列日常词汇与相应的视觉对象进行匹配,大规模地对齐视觉和语言概念,并将这种能力推广到训练中没有见过的新例子。研究表明,多模态表征学习和全域联想学习机制的结合可以为计算机学习单词带来突破。

具体来说,研究人员根据多模态模型研究的最新发展设计了CVCL。CVCL集成了表征学习和联想学习,并使用一个比较目标来协调视觉编码器和语言编码器的两个神经网络。

如图1所示,对比目标以自我监控的方式进行训练(即仅使用儿童视角的记录,不使用外部注释)。该模型将视频帧和语言片段中目标的共现转换为向量并提取为正例,同时将非共现分离为向量作为隐式负例。

在提取正面例子后,CVCL将这些时间向量转换为学习信号,用于学习和调整多模态表示。这种方法不需要限定词义,也不需要事先列出可能的视觉对象。它可以从婴儿录制的视频中恢复许多基本单词及其视觉对象的组合。

评价CVCL获得的词汇

与视觉指示的对象相对应的结果。老佛爷收官之作

训练结束后,研究小组评估了CVCL和各种类似模型学习的单词-视觉参照组合的质量。根据一项针对儿童的常见测试,研究团队向模型建议了一个目标类别标签,并要求模型根据四幅候选图像与标签之间的余弦相似性选择相应的视觉参考对象。

图2A显示了标签s的测试结果。总体而言,CVCL的分类准确率为61。6 %。图2D显示了模型在不同标签中的具体结果。在22个概念中,CVCL对11个概念的判断与CLIP的判断相差不到5%。然而,剪辑训练中使用的数据量(互联网上有4亿对图像文本)远远超过了CVCL。为了解决分类重叠等潜在问题,研究团队人工筛选出子集进行后续评估。

为了确定CVCL捕捉词义能力的上限和下限,研究小组还用类似的模型进行了实验。为了测试该模型对应语言和视觉信息的能力,研究团队对原始数据集中常见目标对象的视频帧和记录进行了加扰,并重新训练了该模型的一个变体CVCL洗牌。受干扰的模型表现不佳,这表明视觉和语言信息的共现在模型学习中起着关键作用。

为了测试视觉嵌入的有效性,研究人员在训练期间随机冻结了CVCL的视觉编码器。尽管模型掌握了一些概念,如“沙子”和“汽车”,如图2D所示,模型的性能再次急剧下降(M = 38.0%)。

研究人员将CVCL与基于其他数据或甲骨文训练数据的人工智能模型进行了比较,其他模型的训练数据超出了儿童词汇的范围。CLIP的准确率为66.7%,比CVCL高5.1%,这是由于它对“厨房”、“玩具”和“篮子”等几个单词的含义有更好的理解。

通过以上测试可以看出,在一定范围内测试时,CVCL的性能可以与基于互联网规模数据训练的模型相当。

此外,研究人员还测试了该模型是否可以独立地对单词进行分类,而不是根据一些引导孩子的句子做出判断。他们在初始化的预训练编码器上拟合线性分类器,并获得线性探针模型。新模型的准确率为81.6%,表明CVCL具有独立判断能力。

与直接标记示例相比,研究团队量化了对话中自然出现的单词对模型训练的价值。如图2B所示,他们用较少的人工标记数据(标记数据的10%和1%)训练了两个线性探针模型,测试结果如下表所示。

减少了人工标注数据的线性探针模型,分类准确率分别降低到77.2%和65.9%。使用1%标注示例的模型性能略好于CVCL。相比之下,保守估计一个人工标注至少相当于自然语言中的7个例子。然而,来自自然语言的数据可以更灵活和准确地表示儿童学习的内容,并且可以容纳无限数量的视觉概念。

为了研究是否有其他因素影响单词-视觉参照组合的可学习性,研究小组还训练了CVCL模型的其他变体进行评估。他们改变了模型结构或训练过程的所有方面,但没有一个方面比CVCL本身表现得更好。

综上所述,研究结果表明,人类获得的第一个单词-视觉指代组合可以从10到100个自然出现的单词-视觉指代组合中获得。

对全新视觉示例的概括新三狼欢场屠夫

为了测试CVCL的泛化能力,研究团队在Konkle Objects数据集上进行了实验。

受婴儿语言学习实验的启发,研究小组向CVCL提供了64张白色背景下单一物体的额外图像,对应的单词都在CVCL的词汇中。这个实验使研究小组能够检查CVCL学到的单词是否可以成功地推广到不熟悉的物体。

如图3A所示,CVCL具有一定的泛化能力。在64个对象中,16个得分高于50%(正确),其他42个概念得分高于25%(偶然),总体准确率为34.7%。

此外,两个CVCL模型变体接近偶然精度(CVCL混洗和CVCL随机特征模型的精度分别为25.6%和23.4%),并且它们的最佳性能接近当前的SOTA方法(CLIP和线性探针模型的精度分别为99.4%和90.7%)。

这些结果显示了CVCL的多模态表示如何允许分布之外的泛化——与这种能力的其他更大规模的演示一致。为了说明这种评估所需的视觉概括程度,图3B显示了嵌入话语中的单词的一些自然训练示例(从儿童的角度),这些示例与用于评估的新颖测试图像相匹配(及其分类准确性)。此外,这种评价与经典的婴儿词汇学习实验中呈现的刺激类型非常相似,该实验表明在实验室外获得的表现足以解释婴儿如何将实验室中的视觉刺激归纳为新的视觉刺激。

组织结构的多模态表示

最后,研究者介绍了在CVCL学到的三个多模态表征结构分析家族。

首先要探讨的问题是CVCL的视觉和语言概念系统在多大程度上是一致的。例如,如果“汽车”的视觉和单词嵌入独立地更类似于“道路”而不是“球”,则它将指示良好的多模态对齐。

研究人员使用labelled-S中的22个概念随机提取100个注释帧,提取它们的图像嵌入并计算每个概念跨帧的视觉原型。他们还搜索了每个概念对应的单词embedding。接下来,计算这些嵌入(包括模态内和模态间)之间的所有余弦相似性,并通过t分布随机相邻嵌入(t-SNE)可视化它们之间的关系,如图4A和b所示..在图4A中,虚线表示每个概念的对应视觉质心和单词嵌入之间的距离。

由于许多跨模态距离非常小,研究人员检查了概念之间的模态内相似性(通过余弦)是否与视觉和语言相关,并发现概念对齐的显著程度(相关系数r = 0.37,P

这些关系不适用于CVCL的两个下界(图S4)。此外,对齐距离与分类性能呈强负相关(r = -0.65,p = 0.001),一些最不准确的类别显示了其视觉原型与单词嵌入之间的最大距离。图4B显示了每个概念的标记图像嵌入的子集,强调不同的视觉概念在示例的紧密聚类程度方面存在差异。通过将视觉变化视为概念的视觉嵌入与其视觉原型之间的平均欧氏距离,研究人员还发现了与分类性能的强烈负相关性(r = -0.48,p = 0.025),这表明CVCL在处理“手”和“玩具”等词参考映射时的困难与它们的视觉变化有关。相比之下,紧密聚集的概念如“汽车”和“婴儿床”。

接下来,研究人员在CVCL可视化了不同单词嵌入与图像嵌入的交互方式(图4C)。通过检查三个不同的概念,他们观察到模型预测与特定单词嵌入最相似的图像(以绿色显示)与每个类别的真实标记图像集(以蓝色显示)非常接近,完整的概念集如图S6所示。研究人员发现,CVCL学习将不同的视觉相似项目集表示为一个概念的不同子簇,尽管每个单词只使用一个向量。例如,单词“楼梯”的嵌入最强烈地激活了两个独立的集群,分别代表室内和室外楼梯,而“拼图”则产生了另外两个集群,分别代表字母和动物拼图。先前的概念学习心理学理论通常需要一个清晰的内置机制来捕捉概念内部的子结构,但在CVCL,我们发现多聚类表征通过比较学习隐含地出现。

研究人员还定性检测了CVCL定位参照物的能力。对于给定的图像,通过应用Grad-CAM获得注意力图,并通过计算最终卷积层特征图的加权和(使用基于图像文本相对于特征图空域平均值的余弦相似性梯度的权重)突出显示与目标类别最相关的图像区域。研究人员可以将注意力图叠加在图像上,并检查指示位置和注意力图之间的任何对应关系。

图5示出了四个概念中的多个注意力图的示例。对于某些类别来说,CVCL的注意力图提供了物体位置的证据:注意力图中最活跃的区域密切跟踪着参照物的位置。

有关更多研究细节,请参考原始论文。

未经允许不得转载:科技让生活更美好 » 年龄两岁,教龄一年半:婴儿AI训练师登上Science