刷屏的谷歌“多模态AI交互”视频,造假了?

本文来自:华尔街所见,卜树清著,题图来自:视觉中国。

周四,谷歌官方YouTube账号发布的一段名为“与双子座亲密互动:与多模态AI互动”的视频吸引了网友的围观,一天之内就有140万次观看。

三星9500参数配置

您当前的设备暂时不支持播放。

这个视频吸引了如此多的关注,因为它展示了谷歌历史上最强大的双子座多模态模型在交互方面的令人印象深刻的性能。

在这段时长6分22秒的视频中,双子座对语音、图像等输入提示反应灵活流畅,表现出很强的多模态理解和交互能力。

然而,根据TechCrunch的最新报道,有用户仔细研究了视频后发现,双子座的惊人表现几乎是“伪造”的。

视频中,双子座对画面的描述、玩具识别、回答问题都是人为设定的。视频跳过了一些小技巧和模型的推理过程,给观众造成一种双子座聪明敏捷的错觉。

第一,双子座可能没那么聪明。

双子座在视频中展示了多种互动技能,比如识别玩具鸭、在杯子戏法中追踪球、识别手势、重新排列行星顺序等等。

例如,在第一次演示中,双子座确定了一幅鸭子素描从线条到完整画面的演变过程。当演示者用蓝色颜料填充鸭子素描时,双子座指出鸭子通常是棕色、白色或黑色,而不是蓝色。

然后,当双子座看到一只蓝色的玩具鸭时,它惊讶地说:“这是什么!”“接下来,它回答了关于这只玩具鸭的各种语音问题。

整个视频中,双子的反应很快,回答也很流畅,但问题是它的反应不够真实。

媒体通过捕捉素材,测试双子座在各种场景下的反应能力,重新制作了演示视频。然后,用视频素材中的静态图片框来提示双子,通过文字输入来提示。

结果显示,Gemini确实具备视频中展示的一些能力,但它并没有真正像视频中展示的那样快速流畅地完成所有交互任务。一加8透视手机是哪款

但据TechCrunch报道,视频中展示的互动效果其实并不是真正的即时互动,而是事先设定好的。

视频使用了一系列特别准备的文字提示和配套的静态图片。通过对这些预设素材的选取和剪切,将其制作成真实的交互效果。

这其实是为了误导观众,让人相信视频展现了双子真实的即时互动能力。但是很有可能双子座在交互速度和准确性上并没有视频中表现的那么强大。

第二,视频和文档显示的提示差别很大。联想笔记本电脑y480的内存条怎么查看

值得注意的是,当TechCrunch将该视频与谷歌发布的文档演示进行对比时,发现两者的提示存在差异。

比如视频中的2: 45,一只手做了一系列手势,与语音提示不符。双子座赶紧回答:“我知道你在做什么!你在玩石头剪刀布!”

但Google的Gemini能力文档一开始就明确指出,不能通过识别单个手势来推断模型,建议必须同时显示三个手势,并给出提示词“这是什么游戏”,只有这样才能识别“石头、剪刀、布”。

所以视频中的表现完全不符合文件中描述的提示限制,无法展现双子座的真实识别能力。

此外,双子座辨认行星顺序的场景也可能具有欺骗性。

演示者展示了一张涂鸦着太阳、土星和地球的便利贴,并询问双子座行星顺序是否正确。双子座给出了太阳、地球和土星的正确顺序。

但是文档显示中真正的提示是“这是正确的顺序吗?想想离太阳的距离,解释你的推理。”

这两种互动感觉完全不一样。视频演示看似智能及时评价,但在现实互动中,双子座需要的是暗示性的暗示。

此外,在追踪杯中纸团的演示中,也存在与文档中记录的提示不同的情况。

值得注意的是,如果视频一开始就明确表示“这是我们的研究人员测试过的交互的艺术呈现”,没有人会反对,因为这种视频既有事实,也有理想。

但这个视频名为“与双子座的亲密互动”,标榜为“我们最喜欢的互动”,实际上是指视频中的互动是指真实的互动,其实不是。

谷歌甚至没有说明视频中显示的型号是已经上市的Gemini Pro版本还是预计明年发布的Gemini Ultra版本。

本文来自:华尔街,作者卜树清

未经允许不得转载:科技让生活更美好 » 刷屏的谷歌“多模态AI交互”视频,造假了?