志东西
作者GenAICon 2024
2024中国生成式AI大会于4月18-19日在北京举行。在大会首日的主会场开幕式上,北京大学助理教授、银河环球机器人创始人&致远体智中心CTO兼主任王鹤以“人体多模态大模型系统开启指挥操作”为题发表演讲。
银河环球机器人成立于2023年5月,是中国具代表性的具身智能创业公司之一。到目前为止,它已经完成了四轮融资。美团是该公司之外最大的外部股东。北大燕园创投和清华无限基金为投资方,其累计融资金额已超过1亿美元。
作为国内具身智能领域的资深专家,王鹤详细讲解了具身智能模型的定义、范围和关键技术。他表示,目前通用机器人多模态模型的局限性在于数据源有限,难以高频输出动作。应对这两个挑战的方向是通过模拟世界来提供训练数据,并通过使用三维模态模型来提高泛化能力和速度。
在这方面,银河通用机器人构建了三级大规模模型体系,包括硬件、模拟合成数据训练的泛化技能、大模型等。基于该系统,机器人可根据人类语音指令实现跨场景、跨物体材质、跨形状、跨物体放置,并开放语义泛化,成功率达95%。
以下为王鹤发言实录:
我今天带来的内容与机器人有关,这个话题也是今年“AI+”最热门的话题之一。
大型模型公司OpenAI和机器人公司Figure AI联合表演,向我们展示了机器人在厨房拿苹果、端盘子和放杯子的惊人视频。巨人NVIDIA在GTC会议上宣布将推出通用机器人GROOT项目。
那么,我们对万能机器人有什么期待呢?也就是它可以像人一样做各种体力劳动,它可以实现我们告诉机器人指令。它可以通过视觉看到并通过各种传感器感知,然后以高频率持续输出动作,即它可以理解我们告诉它的任务指令。这就是“言出必行”
此外,机器人还应该是环境通用的,可以在家庭、工厂和超市等不同环境中工作。
显然,这样一个通用机器人不可能只创造机器人本体,那么它背后的技术是什么?是什么赋予了它这种能力?它是一个多模态的大型模型。
1.拆解大模型并分类。自动驾驶是典型的带体大模型。
具有身体的多模态大型模型是可以以高频率输出动作的大型模型。我把它分为两类:非物理模型和物理模型。
今天之前看到的一些大模型实际上是非实物大模型,例如GPT-4、GPT-4V、黑脸田鸡等。它们的特点是输出给人们看或阅读。无论语言、图片还是视频模型,最终的服务对象都是人,展示的设备是各种手机、电脑、AR设备等。
但是大模型的特点是有身体,最终输出对象是身体的运动。
从这个角度来看,自动驾驶车型是典型的大块头车型,比如特斯拉的FSD全自动驾驶系统。今年8月,它声称要启动无人驾驶出租车业务Robotaix。
自动驾驶模型的输入是视觉信号和终端的位置,输出是方向盘的动作以及油门和刹车的大小。与汽车相比,机器人的动作之间的自由度更高空,其输出是底盘或腿、臂和手指的运动。如此大规模的机器人模型也是近年来学术界和工业界研究的热点。
谷歌RT-2模型是大模型的端到端代表,它可以将香蕉放在写有“3”的纸上,并将草莓放在正确的碗里。“找到合适的碗”需要大模型的一般感知和理解能力以及连贯的动作生成能力。把足球移到篮球旁边,把可乐罐移到泰勒·斯威夫特的照片旁边,把红牛移到字母“H”旁边。
如果能完全实现开放式教学和跨环境通用化,这样一个带身体的大模型可以代替大量的体力劳动。
如今,全球语言模型、视频模型、图片模型和自动驾驶模型的市场规模至少已达到1000亿美元。如果机器人可以用任何指令代替人,它的市场规模会有多大?它可能比目前的汽车市场高出两三个数量级。
第二,通用机器人面临两大局限:有限的数据源和机器人反射弧长。
谷歌RT-2大模型的背后是通过多模态的大模型输出动作,那么这样的大模型成熟吗?今年我们能期待机器人保姆在家工作吗?目前,无论OpenAI、NVIDIA还是谷歌,做一个通用机器人仍然存在巨大的局限性。金盆网平湖一小-年网上报名通知名单
谷歌技术限制的第一点是步行机器人的数据来源非常有限。谷歌在山村(美国加利福尼亚州)办公室的厨房中收集了17个月的13万条数据,这使其机器人在谷歌的厨房中表现非常出色。
然而,一旦走出厨房,我们需要调查它的环境普遍性,而它的成功率从97%骤降到30%左右。而且这个概括是有选择性的,并不是直接放在工地、很吵的厨房等场景。它最大的问题是数据收集无法扩展。
如今,有数百万车主在驾驶特斯拉,为特斯拉的端到端自动驾驶模型提供数据。互联网上有无尽的用户上传的照片作为多模态大模型的数据,那么机器人大模型的数据在哪里呢?这是谷歌、OpenAI和NVIDIA尚未完全解决的问题。
第二个限制是RT-2型号包括谷歌的上一代型号PaLM-E,其速度只能达到1 ~ 3 Hz,而机器人的反射弧长达0.3秒甚至1秒。恐怕你不能使用这样的机器人。
OpenAI和Figure AI配合一个小模型,可以达到200Hz的动作输出频率。如何以200Hz的频率为大型模型输出动作也成为通用机器人领域的一个重要问题。
第三,构建三级大模型体系,解决泛化和响应速度问题。
今天,我将为您带来银河通用在这个问题上的一些探索。
怎么才能快速概括?概括是关于数据的。如今,真正能够满足大型机器人模型需求并包含动作标签的数据只能来自仿真世界和物理传感器。
2017年,当我还是一名医生时,我开始研究如何通过模拟生成大量合成数据来训练机器人的视觉和动作。今天,我们可以将各种家用电器和其他物体移入模拟设备中,我们可以真正进行物理模拟。机器人应该朝某个方向用力拉抽屉,而不是在游戏中手一经过就弹开抽屉。在这种情况下,机器人所学的东西在现实世界中毫无用处。
我们将各种各样的物体放在模拟世界中,赋予它与真实世界相同的交互方式,然后我们将传感器放在模拟环境中进行训练,这样我们就有了足够好的数据生成源。
那么如何快速做到呢?它是一个小模型,就像OpenAI和Figure AI的小模型一样,高频输出动作。三维视觉的小模型给我们带来了比图AI更好的选择。
Figure AI的方案采用了二维视觉模型,二维视觉模型最大的特点是难以泛化。如果你以前在黑屋子里训练,以前在白屋子里的训练就白费了。三维视觉看到的是点云和物体的几何形状,不会受到光照、纹理和颜色的影响。
那么,这是否可以通用和快速,或者从模拟数据中学习的模型是否可以解决我们现实世界中的开放性和易操作性问题?今天,我将与大家分享我们取得的标志性成就。
我们使用三级大规模模型系统,底层是硬件层,中间层是在没有任何真实世界数据训练的情况下通过仿真合成数据的泛化技能,包括自主映射、自主导航、物体抓取、开门、抽屉打开、冰箱打开、移动操作以及悬挂衣服和折叠衣服的灵活物体操作的泛化技能。
我们之所以在这里谈论泛化,是因为我们可以在模拟环境中生成数千万个场景和数十亿个动作来训练机器人,使它们能够应对各种现实世界的情况和挑战。与现实世界中的遥控机器人采集相比,这种采集方法效率高、数据源丰富。
顶层是大模型,可以调度中间技能API实现从任务感知、规划到执行的全过程。
第四,大型仿真平台Open6DOR解决了六自由度操作问题。
让我们展示第一个例子,我们如何打开语义关节对象。
我们与斯坦福大学合作。当机器人执行打开和关闭微波炉、煮沸锅和使用搅拌器等任务时,它们不会依赖我们逐一训练不同的类别,而是直接在这些物体上测试我们的模型。
这项技能来自CVPR 2023的满分试卷,我们提供了世界上第一个以零件为中心的数据集,涵盖了各种家用电器上可能存在的主要操作零件,包括旋转盖、按压盖、旋钮、按钮、线性手柄、圆形手柄、门等。
然后我们将这些部件放在模拟世界中,并标记其姿态和所有轴的使用方式,从而有助于推断开门等相应的操作方法。
这样的合成数据集可以教会机器人如何打开生活中从未见过的橱柜。机器人只要拥有三维点云,找到把手的位置,正确抓住把手并沿着橱柜的方向拉动把手,就可以打开任何抽屉。
我们的实验还证实,机器人完全可以依靠模拟世界的数据来实现现实世界中关节对象的泛化操作,包括未知对象,如遥控器、计算器、圆柄锅盖等。图片上方是三维视觉的输出,下方是机器人技能的展示。
这样的技巧如何与大模型相结合?GPT-4V对我们来说是非常有益的。GPT-4V是典型的二维双模态语言模型,具有很强的推理和感知能力。但它的缺点是偶尔看不到,误判对象的零件数量,并且零件在三维空中的具体位置未知,因此定位能力为零。
三维视觉模型可以提供GPT-4V探测到的部件的数量、位置和形状,并将其提供给GPT-4V,以提示其考虑如何使用该设备。
我给你举个例子。当我们直接将检测到的微波炉部件给GPT-4V作为提示时,让它生成一个全面的场景描述。它会说微波炉有直门、直把手、按钮和旋钮,然后问它:“如果我想打开微波炉,我应该移动哪个部分?”使用哪个API?”
大模型的响应是“移动手柄,调用的API是绕门轴旋转90度”。然后,把手在哪里,门轴在哪里都是通过三维视觉给它的,而GPT-4V无法输出三维坐标和位置。
ticpods耳机怎么配对
然后当机器人尝试时,我们发现这个操作看似合理,但实际操作无法打开。为什么?由于微波炉无法通过暴力打开,此时,我们将“门没有打开,只是旋转了十分之几度”的三维视觉反馈给GPT-4V,并询问它下一步该做什么。
当大模型给出操作时,您可以调用检测到的按钮,然后打开门。这表明大模型通过丰富的语料训练产生了足够的知识。我们可以直接信任它来操作。
这样的例子还有很多。开始时,我们谈到了家用电器的零件,GPT-4V可以通过了解零件的位置进行操作。这是真正的开放式教学,对环境进行概括,不受环境颜色和光照的影响,只关心几何形状。
第二个例子是如何自由放置具有六个自由度的对象。六自由度是指具有三个自由度的平移和旋转。
谷歌的工作是一个开放的语义操作,有三个自由度。它只能放在它该放的地方,但不能放在它该放的地方。它没有方向变化的概念,只有位置的概念。我们在世界上率先提出桌面操作要解决的里程碑问题是六自由度操作,可以在桌面上同时执行位置和方向的指令。我们将其命名为Open6DOR。
Open6DOR是一个大规模仿真平台,包含2500个各种任务。这些任务并不是用来训练的,而是为了测试多模态的大型带体模型是否可以完成,其中包括200多个家中常用的物体。
它主要关注三种类型的任务跟踪。第一种只关心位置,比如把苹果放在勺子的右边,把瓶子放在锤子和螺丝刀之间。这是位置-轨迹;;第二种是旋转轨迹,锤子被甩到左边,罐头的标签被甩到左边,碗被倒过来。实际上,我们需要的是位置+旋转的任务执行,即六自由度轨道,例如将盒子放在壶和盖子之间并使标签齐平,或者将卷尺放在中间并使其直立。这样的操作是桌面级操作的一个重要里程碑。
谁能率先完成2500个任务,意味着你的大模型已经初步具备了开放指令的能力。
五、三维可视化小模型快速生成动作,大模型规划。
目前,我们已经为2000多项任务提出了一套方法。
首先是抓取能力,这是银河的独特技术。我们开发了世界上第一种可以基于模拟合成数据训练任何材料的技术。通过海量的合成数据,我们在国际上首次实现了跨场景、跨物体材质、跨形态、跨物体放置的通用化,首次实现了95%的成功率。
此外,对于二维视觉和三维视觉来说,概括和把握纯透明和纯反射等对象是非常具有挑战性的。可以看出,我们的方法可以实时重建透明和高光物体的深度,并据此抓取物体。
下图中演示的抓取并不是简单地从上到下抓取,而是实际上具有六个自由度的抓取,其中三个旋转自由度和三个平移自由度。此外,当它与大模型耦合时,它可以实现开放语义对象抓取,今年我们在抓取能力方面实现了广义的单指令抓取。
那么如何有效地捕捉位置呢?下面四张图中显示的说明是:画一张纸盖住螺丝刀,将瓶子垂直放在红色的碗中,将足球放在抽屉中,将水豚放在金属杯中。
背后是什么?首先,我们需要使用GPT-4V提取指令中的关键信息。这里的说明是“将水豚放在写有‘打开6 dor’的纸上,并向前冲洗水豚”。我们使用GPT-4V+接地SAM来分割所有对象,并将其三维边界框输出到GPT-4V。在GPT-4V了解这些物体的当前位置后,它将输出放置物体的指令。
轮换呢?GPT-4V能直接输出旋转矩阵吗?输出机械手向左、向上和侧向转动多少度?答案是否定的,GPT-4V没有这种能力,它也不知道旋转轴在哪里。
我们提出了世界各地的真实-相同-真实管道,它首先在仿真环境中重建真实对象,然后将重建的对象网格自由地散布在整个仿真环境中,将对象留在各种可能的位置。然后这些位置交给GPT-4V来判断谁符合语言指令的要求,然后GPT-4V通过两轮筛选选择符合指令的物体放置位置。
这种模拟是完全并行的,可以快速完成,而较慢的模拟是GPT-4V需要在众多图片中选择最佳图片。我们将十张图片放在一起组成一张图片,上面的标签为0 ~ 9,GPT-4V将直接输出选择哪一张,这可以同时解决位置和方向在哪里的问题,然后使用我们的抓取算法结合路径规划来完成任务。
我今天要讲的例子是,当我们使用GPT-4V进行端到端运动生成时,速度并不快,就像视频生成现在离线一样。机器人需要实时在线生成,因此我们提出了使用中间三维视觉小模型快速生成动作和规划大模型的三级思路。
但未来仍然是端到端的。谁能制作一个端到端的视觉、语言和动作模型?这里隐含着一个条件——没有一家公司能做好一个小模型,也没有一家公司能推广一个小的行动模型,因此不可能推广一个大模型。因为大模型对单个任务的数据要求远高于小模型。
Galaxy Universal搭载了一系列小模型,从抓取、放置、灵活的物体操纵到关节物体操纵等。我们将把所有的河流还给大海,最后整合到大模型中,实现通用机器人。至此,我们已经率先构建了世界上第一个具有跨场景泛化能力的大规模导航模型。你可以用一句话让机器人在你从未见过的环境中遵循指令。这样的机器人没有任何三维定位、地图或激光雷达,只有图片作为输入,这与人们走路认路的方式完全相同。
我们相信,这样一个通用和通用的端到端视觉语言动作模型将迅速彻底改变现有的机器人产业结构,并在非物理模型和自动驾驶模型之后创造一个万亿美元的赛道。
银河通用成立于去年6月。历时10个月完成四轮融资,累计融资金额达1亿美元。我们有一群明星投资者。
以上是王鹤演讲的完整整理。通用电气集团现状
未经允许不得转载:科技让生活更美好 » 银河通用王鹤:让具身智能机器人“言出法随”,需攻克两大局限性丨GenAICon 2024