比 Siri 更懂 iPhone！GPT-4V 可“操作”手机完成任意指令，无需训练-科技让生活更美好

一项研究发现:

无需任何训练，GPT-4V可以像人类一样直接与智能手机交互，完成各种指定的命令。

比如让它在50-100美金的预算内买一个牛奶发泡的工具。

它可以一步一步完成以下九个操作:选择购物程序(亚马逊)并打开，点击搜索栏输入“牛奶泡泡器”，找到筛选功能选择预算范围，点击商品，完成订单。

根据测试，GPT-4V在iPhone上完成类似任务的成功率可以达到75%。

所以有人感叹，有了它，Siri渐渐没用了(比Siri更懂iPhone)

)

谁知道有人直接摆摆手:

Siri一开始就没那么强。(狗头)

有人边看边喊:

真的是这样吗？

GPT-4V零样品操作iPhone

这项研究来自加州大学圣地亚哥分校、微软等机构。

它自己开发了一个MM-Navigator，即基于GPT-4V的代理，用于执行智能手机用户界面的导航任务。

实验装置

在每个时间步，MM-Navigator将获得一个屏幕截图。

作为一种多模态模式，GPT-4V接受图像和文本作为输入，并产生文本输出。

这里是一步一步的读取截图信息，输出要操作的步骤。

现在的问题是:

如何让模型合理的计算出给定屏幕上应该点击的确切位置坐标(GPT-4V只能给出大概位置)。

作者给出的解决方法很简单。OCR工具和IconNet检测每个给定屏幕上的UI元素，并标记不同的数字。

这样，GPT-4V只需要面对截图，指出要操作哪些数字。

两项能力测试

该测试首先在iPhone上启动。

要成功地控制手机涉及不同类型的屏幕理解能力的GPT-4V:

一个是语义推理，包括理解屏幕输入和阐明完成给定指令所需的动作。

一个是指出每个动作应该被执行的确切位置的能力(也就是，哪个数字在那个点)。

因此，作者开发了两组测试来分别区分它们。

1、预期动作描述

只输出应该做什么，不输出具体坐标。

在这项任务中，GPT-4V理解指令并给出操作步骤的准确率为90.9%。

比如下面的Safari浏览器截图，用户想打开一个新的标签页，但是左下角的+号是灰色的。我该怎么办？

GPT-4V回答:

图片理解力很好~文中可以找到更多的例子。

2、本地化行动执行

当GPT-4V被要求将所有这些“纸上谈兵”变成具体行动(即第二项测试任务)时，其准确率下降到了74.5%。

还是上面的例子，它可以按照自己的指令，给出正确的操作号，比如点击数字9关闭一个标签页。

但如下图所示，当它被要求寻找一个可以识别建筑物的应用时，它可以准确地指出使用了ChatGPT，却给出了错误的数字“15”(应该是“5”)。

也有错误是因为截图本身没有注明对应位置。

比如让它从下图开启隐身模式，直接给wifi”的位置，完全尴尬。

此外，除了这种简单的一步到位的任务，测试还发现，GPT-4V无需训练也能胜任“购买一个鼓泡器”这样复杂的指令。

在这个过程中，我们可以看到GPT-4V详细列出了每一步要做什么，以及对应的数字坐标。

最后是在Android上的测试。

总体而言，它的表现明显优于其他型号，如Llama 2、PaLM 2和ChatGPT。

在安装、购物等任务中整体表现的最高分为52.96%，这些基线机型的最高分为39.6%。

对于整个实验来说，其最大的意义在于证明了GPT-4V等多模态模型可以直接将其能力迁移到不熟悉的场景，显示出手机交互的巨大潜力。

值得一提的是，看了这个调研，网友们还提出了两点:

一个是我们如何定义任务执行的成败。

比如我们想让它买洗手液补充品，我们只要一袋，它却多买了六袋。成功了吗？

第二，大家不能太激动。如果要真正将这项技术商业化，还有很长的路要走空。

因为准确率高达95%的Siri经常被吐槽的很惨。

团队介绍

这项研究有12位作者，大部分来自微软。

两个人一起工作。

他们是加州大学圣地亚哥分校的博士生和微软的高级研究员杨。后者毕业于罗切斯特大学，获得学士学位。

参考链接:

本文来自微信微信官方账号:量子位(ID: qbitai)，作者:丰色。

未经允许不得转载：科技让生活更美好 » 比 Siri 更懂 iPhone！GPT-4V 可“操作”手机完成任意指令，无需训练

比 Siri 更懂 iPhone！GPT-4V 可“操作”手机完成任意指令，无需训练

GPT-4V零样品操作iPhone

实验装置

两项能力测试

团队介绍

作者：pu

相关推荐