一项研究发现:
无需任何训练,GPT-4V可以像人类一样直接与智能手机交互,完成各种指定的命令。
比如让它在50-100美金的预算内买一个牛奶发泡的工具。
它可以一步一步完成以下九个操作:选择购物程序(亚马逊)并打开,点击搜索栏输入“牛奶泡泡器”,找到筛选功能选择预算范围,点击商品,完成订单。
根据测试,GPT-4V在iPhone上完成类似任务的成功率可以达到75%。
所以有人感叹,有了它,Siri渐渐没用了(比Siri更懂iPhone)
)
谁知道有人直接摆摆手:
Siri一开始就没那么强。(狗头)
有人边看边喊:
真的是这样吗?
GPT-4V零样品操作iPhone
这项研究来自加州大学圣地亚哥分校、微软等机构。
它自己开发了一个MM-Navigator,即基于GPT-4V的代理,用于执行智能手机用户界面的导航任务。
实验装置
在每个时间步,MM-Navigator将获得一个屏幕截图。
作为一种多模态模式,GPT-4V接受图像和文本作为输入,并产生文本输出。
这里是一步一步的读取截图信息,输出要操作的步骤。
现在的问题是:
如何让模型合理的计算出给定屏幕上应该点击的确切位置坐标(GPT-4V只能给出大概位置)。
作者给出的解决方法很简单。OCR工具和IconNet检测每个给定屏幕上的UI元素,并标记不同的数字。
这样,GPT-4V只需要面对截图,指出要操作哪些数字。
两项能力测试
该测试首先在iPhone上启动。
要成功地控制手机涉及不同类型的屏幕理解能力的GPT-4V:
一个是语义推理,包括理解屏幕输入和阐明完成给定指令所需的动作。
一个是指出每个动作应该被执行的确切位置的能力(也就是,哪个数字在那个点)。
因此,作者开发了两组测试来分别区分它们。
1、预期动作描述
只输出应该做什么,不输出具体坐标。
在这项任务中,GPT-4V理解指令并给出操作步骤的准确率为90.9%。
比如下面的Safari浏览器截图,用户想打开一个新的标签页,但是左下角的+号是灰色的。我该怎么办?
GPT-4V回答:
图片理解力很好~文中可以找到更多的例子。
2、本地化行动执行
当GPT-4V被要求将所有这些“纸上谈兵”变成具体行动(即第二项测试任务)时,其准确率下降到了74.5%。
还是上面的例子,它可以按照自己的指令,给出正确的操作号,比如点击数字9关闭一个标签页。
但如下图所示,当它被要求寻找一个可以识别建筑物的应用时,它可以准确地指出使用了ChatGPT,却给出了错误的数字“15”(应该是“5”)。
也有错误是因为截图本身没有注明对应位置。
比如让它从下图开启隐身模式,直接给wifi”的位置,完全尴尬。
此外,除了这种简单的一步到位的任务,测试还发现,GPT-4V无需训练也能胜任“购买一个鼓泡器”这样复杂的指令。
在这个过程中,我们可以看到GPT-4V详细列出了每一步要做什么,以及对应的数字坐标。
最后是在Android上的测试。
总体而言,它的表现明显优于其他型号,如Llama 2、PaLM 2和ChatGPT。
在安装、购物等任务中整体表现的最高分为52.96%,这些基线机型的最高分为39.6%。
对于整个实验来说,其最大的意义在于证明了GPT-4V等多模态模型可以直接将其能力迁移到不熟悉的场景,显示出手机交互的巨大潜力。
值得一提的是,看了这个调研,网友们还提出了两点:
一个是我们如何定义任务执行的成败。
比如我们想让它买洗手液补充品,我们只要一袋,它却多买了六袋。成功了吗?
第二,大家不能太激动。如果要真正将这项技术商业化,还有很长的路要走空。
因为准确率高达95%的Siri经常被吐槽的很惨。
团队介绍
这项研究有12位作者,大部分来自微软。
两个人一起工作。
他们是加州大学圣地亚哥分校的博士生和微软的高级研究员杨。后者毕业于罗切斯特大学,获得学士学位。
参考链接:
本文来自微信微信官方账号:量子位(ID: qbitai),作者:丰色。
未经允许不得转载:科技让生活更美好 » 比 Siri 更懂 iPhone!GPT-4V 可“操作”手机完成任意指令,无需训练