能够用最简单的方式做最复杂的事情才是真正的技术壁垒。
特斯拉的新版FSD(全自动驾驶)V12就很好地说明了这一点。只需要8个摄像头,不需要激光雷达、毫米波雷达、超声波摄像头等其他部件,实现一个老司机的驾驶能力。
对于什么是老司机的驾驶能力,我们想先通过一个短视频来展示一下:在纽约交通最混乱的第五大道上拍摄,FSD可以根据他的地理位置意识到他在哪里,从而切换驾驶风格,在西方跟随佛在纽约不让他走,这是在端到端培训中自动学习的。
您当前的设备不支持播放视频。来源:YouTube:杰克逊在美国。
马斯克甚至颠覆了自己。新版本V12与V11相比发生了巨大变化,V11中采用的许多技术也被放弃(即使这些技术可能是领先的)。对V12最简单的理解之一是,在V11之前,FSD需要被告知在红灯时停下来,但V12不再需要,而是依靠V12自我学习并自我“实现”。
因此,原本由人编写的30万行代码突然减少到了3000行,取而代之的是一个类似于大型语言模型的训练芯片矩阵(由数万个NVIDIA H100芯片组成),这些都是由AI神经网络训练解决的。可以说V11还是手工作坊式的生产方式,而V12已经开启了“工业革命”。
在今天的文章中,我们来分析FSD V12版本背后的颠覆性变化。以及与其他技术路线相比,FSD V12这种纯视觉解决方案的优缺点是什么?享受:
1.V12新版本背后最重要的颠覆性变化是什么?
V12最大的变化是部署了“端到端”的AI模型。这里面有两个关键点,一个是端到端,一个是AI大模型。
“端到端”是指一端指输入端,另一端指输出端。输入数据包括摄像机的传感数据、车身数据等。,并通过变压器架构的AI大模型推导后直接输出到开关、刹车和方向盘。
Windows8080端口被占用
基于Transformer架构的AI big模型是特斯拉自动驾驶部门的一名工程师在2022年底向马斯克提出的建议。有必要借鉴ChatGPT,通过学习人类驾驶员的训练材料,让神经网络实现路径规划。
马斯克听后喜出望外,决定就这么做了。从此,FSD的规划部分直接放弃了规则库(由人定义)方案,而转向神经网络。
这里我们简单解释一下什么是规则库方案:规则库是人们指定的基于规则的驱动。原来自动驾驶分为几个步骤,分别是感知、规划和控制。首先,摄像头、激光雷达和毫米波雷达等传感器获取信息,然后基于感知结果和人为设定的规则,由自动驾驶软件代码实现决策。
因此,获取足够多维和准确的信息非常重要,因此每个人都在汽车中安装各种摄像头和雷达;第二,在决策中,人们制定的规则需要涵盖所有情况。这些代码的逻辑基本上是,如果出现某种情况,算法将查询代码中预先编写的解决方案,例如在红灯时停车,不要在直行车道上转弯等等。
但是,日常生活中有太多的驾驶情况,并且会出现不寻常的拐角情况,这些情况往往非常危险,因为在算法库中,可能没有针对这种情况的解决方案。此外,在100种不同的驾驶场景中,您可能需要100种不同的踩刹车和加速方法才能达到平稳的驾驶效果,否则很容易晕车。显然,人类工程师很难让系统在所有情况下都像人类驾驶一样平稳,即使他们日夜编写代码。
按照以前的方法,特斯拉已经是市场领导者。在感知层面,特斯拉采用了一种名为HydraNet的系统来识别物体。HydraNet首先通过8个摄像头的图像输入进入一个后端骨干网络,每个任务由一个专门的负责人处理,如物体检测、红绿灯识别、车道预测等。特斯拉总共设计了50个头部,各种任务的分类非常精细。
在规划部分,特斯拉使用了一种类似于谷歌AlphaGo的方法来下围棋(蒙特卡洛树搜索,由神经网络辅助),该方法会快速穷尽所有可能性并计算出胜率最高的路径。围棋必须遵守国际象棋的规则,而FSD必须遵守交通规则,这是很多人为定义的规则。简单来说,就是根据预设的规则,在所有可能的行驶轨迹中,计算出一个不会与任何物体发生碰撞且不会违反规则的最优解。
V12出来掀翻了桌子,把很多以前的技术扔进了垃圾桶。V12不再需要通过代码编写“红灯停”,而是让AI观看人类驾驶员的大量驾驶视频,并让AI自己找出成千上万的规则。当遇到红绿灯时,减速和刹车,这是AI自己学会的,它自己“实现”了。正是因为这种变化,原本负责这个块的30万行C++代码现在变成了3000行。这就是为什么在V12版本中,FSD的驾驶性能非常拟人化。
在较低的级别上,V12“看”像素。V12不需要先识别画面中有什么,然后去决策部门根据这个感知结果做出判断,而是看画面中最小的单位像素点。V12直接将图片上像素点的位置、构图形状和运行规律输入到神经网络中,通过数亿条真实视频学习经验,并将输入的像素点与之前学习中遇到的像素位置进行比较,这些学习视频是真实人类驾驶员的驾驶反应。然后直接输出一个结果,即执行所需的刹车、开关和方向盘。
以前的视觉方案中的缺点,例如无法识别异常障碍物,现在几乎不存在了。只要这个物体可以被拍摄并使其出现在画面中,它就会成为画面中的一堆像素,而V12只需要这些像素,因此以V12为代表的AI方案被称为“纯视觉的终极解决方案”。
当然,如果训练中使用的视频数据本身就是鲁莽驾驶,那么经过训练的AI驾驶员是否会非常危险?答案确实是,特斯拉的解决方案是开拓车险业务。
例如,在美国,特斯拉通过在北美的保险业务扩展了一个驾驶员行为评分系统,该系统将对人类驾驶员的驾驶行为进行严格评分。特斯拉训练FSD的数据全部来自90分以上的驾驶员,可以说要求极高。
当然,V12与ChatGPT这样的大型号非常相似。这是一种“黑箱模式”。他们需要足够的数据训练才能出现一些惊人的能力,而设计它的工程师不知道为什么会出现这些能力。
这就是为什么FSD需要超过60亿英里的验证里程。只有足够的推理,才能知道如何对模型进行微调和优化,在自动驾驶领域重现大语言模型中标度律的情况,实现指数级的产能增长。正如马斯克所说:当你有100万个视频剪辑时,它勉强够用;200万,略好;300万,你会觉得哇;一千万,这将是难以置信的。
那么,特斯拉的追赶者能追上吗?这背后需要的是极其庞大的计算能力。“现在,自动驾驶超越人类驾驶只是时间问题。”马斯克说。今年第一季度,特斯拉终于提高了其计算能力,相当于35,000块NVIDIA H100的计算能力,到年底将翻一番,达到85,000块计算能力,这使特斯拉成为美国一流的科技公司,与微软和Meta相当。
第二,纯视觉解决方案的优缺点是什么?
目前自动驾驶领域主要分为纯视觉和激光雷达两种方案。如今,pure vision通过结合AI实现了端到端,并取得了快速的变化。在激光雷达方案中,我们仍然依赖于规则库方法,并且通过激光雷达、毫米波雷达和超声波摄像头的复杂组合方案,我们在现阶段实际上有很好的表现。那么,与规则库+激光雷达相比,纯视觉+AI的优缺点是什么?
总之,纯视觉(+AI大模型)的缺点是启动慢,但发展更强。原始规则库在初始阶段具有快速的容量增长,但在后期严重不足空,并且它们之间存在交集。
规则库也可以通过不断修改来迭代。一旦发现问题,就可以找到相应的代码,通常是if-else语句。if在什么情况下发生,否则?这是规则的核心逻辑。此时,只要修改if-else语句的参数数量,或者解决错误的行数,就可以修复该问题。无需输入大量数据,只需将维修代码放入汽车并重新部署即可。
在达到两者的交叉点之前,这意味着基于规则的算法优于大型模型。这是由大模型的特性造成的。当数据量不够时,与常规算法相比不够稳定。这也是Rule-base的核心优势,具有很强的解释力和清晰的规则。当代码部署到汽车上时,它将具有最基本的能力性能,使汽车能够实现基本的ACC和LCC驾驶辅助功能。但是大模型不行,产品在用足够的数据训练之前是非常弱的。
但两者相交后,纯视觉的端到端模式更像是面向未来的终极解决方案。因为人工智能模型具有一般知识,它可以理解以前从未见过的东西。志高空调售后服务
例如,有一次一个塑料袋从前面的车上掉下来,还有一次一个啤酒箱掉了出来,但在我们的训练数据集中,这两种情况从未出现过。作为人类司机,我们知道塑料袋是软的,不需要绕开,但啤酒箱是硬的,需要绕开。如果没有大的车型,自动驾驶系统相当于一直生活在车里,只能解决在这辆车上见过的场景。但真正的人类驾驶员肯定不仅生活在汽车中,而且生活在整个世界中,大模型具有一般知识,它可以识别塑料袋和啤酒箱的区别,它更接近人类并可以应对各种场景,更不用说它有八个摄像头。
此外,从硬件角度来看,纯视觉的端到端模式完全胜出,因为只需要8个摄像头,并且未来最多会不断升级像素,可以大大降低整车成本。而且基本不用担心硬件迭代带来的技术断层。
如果展望未来,从用户体验的角度来看,大尺寸车型可以与座舱进行更多的联动。未来,自动驾驶AI可能就像真正的司机开车一样。你可以和它聊天:比如“刚刚经过的湖叫什么名字?”或者给它一个命令,如“现在靠边停车”或“我们身体不舒服,请平稳驾驶”等。这是迈向L4自动驾驶的重要一步,也是提升自动驾驶体验的关键点。
当然,尽管V12的端到端确实是一个颠覆性的进步,但我们距离真正的完全自动驾驶仍有一条清晰的红线,即责任在于人类驾驶员还是汽车系统,这是从技术、安全和产品责任的角度来看最重要的分界线。目前,尽管我们取得了如此大的进展,但我们仍然落后于L2。我们可能需要足够的安全数据来证明自动驾驶的事故率低于人类,才能真正越过这条红线。
参考资料:
1.摩根士丹利:特斯拉公司特斯拉和英伟达人工智能霸主之旅
2.华泰证券:TSLA。US)了解特斯拉的现在和未来?
3.中信证券:特斯拉FSD,2023年突破之年
4.西南证券:从特斯拉FSD看人工智能
5.《华尔街日报》:随着特斯拉销量下滑,埃隆·马斯克推动增加“全自动驾驶”软件的使用
星际争霸2艾蕊尔
未经允许不得转载:科技让生活更美好 » 马斯克“掀桌子”,AI大模型+自动驾驶会诞生什么?