去年8月,工作重心已经远离特斯拉很久的马斯克很少坐在自己的车里,在硅谷进行直播。
严格来说,直播的主角不是硅谷钢铁侠本人,也不是汽车,而是车辆搭载的最新版本的智能驾驶软件,采用FSD V12 Beta的端到端架构。在他口中,FSD V12是一个“光子对控制”的技术魔法,带有神经网络。
尽管全球围观,FSD V12首秀闯红灯,但仍有国内车企紧急组建端到端团队。一年后,端到端的风已经席卷了中国的智能驾驶行业。
这种摸着特斯拉过河的集体运动,看起来和致敬特斯拉这两年发展Transfomer+BEV和OCC没什么区别,只是难度和门槛越来越高。一些智能司机所信奉的价值,以及赖以生存的工作,也在经历着瓦解和重构。
“端到端是缩放定律”
就像这两年智能驾驶领域的技术变革浪潮一样,端到端并不是什么新鲜事。除了ALVINN这个太老套太简单的,之前还有两个著名的例子。
1988年由卡内基梅隆大学提出的ALVINN是端到端自动驾驶的鼻祖。
2016年,英伟达发表了一篇题为《自动驾驶汽车的端到端学习》的论文,与CNN一起构建了一个端到端的自动驾驶方案。这篇被引用超过5000次的论文在学术界引起了不小的轰动,却未能阻止英伟达在未来与奔驰在自动驾驶方面的合作中被淹没。无敌大表哥作者千山羡雪
2016年,由知名黑客Hotz创立的comma.ai开放了一个端到端的辅助驾驶方案Openpilot,计算平台使用的是搭载高通芯片的手机。尽管这一方案在2020年美国《消费者报告》的评测中获得了最高分,但comma.ai对设备可靠性和功能安全性不屑一顾的方案仍然让车企嗤之以鼻。
过去几年,在行业内,几乎所有的智能驾驶企业都选择了另一条与端到端相反的道路:模块化。
模块化结构将智能驾驶系统分解为多个功能子模块,每个模块上下游相连,接力整个智能驾驶任务。随着技术的进步和经验的积累,这些模块被吸收融合,逐渐形成感知-规划-控制三大模块。
智能驾驶的端到端模块化方案
时至今日,市面上绝大多数智能驾驶系统都是人工和智能部分混搭的系统:感知依靠神经网络,规划和控制使用人类手工设计的算法(少数企业融入了部分神经网络)。这个系统的好处是有利于分工,也便于检查和解决模块中的bug。
但问题是,模块化智能驾驶系统在相对简单的驾驶任务中表现良好,但在复杂的驾驶任务面前,其天花板是肉眼可见的。
在用户体验上,到2024年,智能驾驶仍然不够智能。即使是遥遥领先的城市所谓先进的智能驾驶功能,依然有一种机械感,汇入高速公路,通过大型路口时也会停下来。
智能驾驶工程师不会空与消费者感同身受,因为他们淹没在碎片化任务的海洋中。
在当前的混合智能驾驶系统中,感知神经网络需要将目标级的识别结果提供给下游的调控模块。这就需要感知模块的工程师不断定义“路上什么值得注意”,不断给白名单添加物体,训练神经网络进行识别——以前是车道线、红绿灯、汽车、行人、自行车,后来是各种小动物、拉着树的卡车、撑着伞的摩托车;之后,公交车上印的可能是董明珠,广告牌上印的可能是苏。
更可悲的是监管模块的工程师,他们必须日复一日地为不同的场景编写if else。其实监管工程师的工作并没有那么低级,监管控制领域也有很多传统算法有能力总结各种场景。然而,这些算法的通用性无法与现实的复杂性相抗衡。在期限的压力下,工程师们不得不采取零敲碎打的措施,为各种困难的场景修补规则。
遗憾的是,这样的规则越多,规则之间争斗的可能性就越大,整个模块的可维护性就越差。同时还有无穷无尽的艰难场景,工程师继续写if else,这意味着智能驾驶的调控变成了劳动密集型操作。
在智能驾驶企业管理层的视野中,要想在当前的智能驾驶竞争中胜出,就必须在人群战术中,尤其是在调控模块中堆积人力,但投入产出比是不可持续的。比如华为BU的智能驾驶团队,监管部门就有上千名工程师[1]。以相当保守的平均年薪50万元计算,仅这个部门的人力成本就超过5亿元。华为ADS智能驾驶系统在终端的实际落地价格为6000元。
随着这种演变,高水平的智能驾驶员有滑向双输局面的危险,即使是领先的特斯拉也不例外。然而,2022年底,OpenAI出手,为智家带来了一场端到端的复兴。
这一年诞生的ChatGPT,让一种AI方法论成为显学:大量吸收人类文本信息,让神经网络学习文本中包含的知识,目标是预测下一个token。
当年12月,特斯拉的智能驾驶工程师Dhaval Shroff与马斯克进行了对话,放弃了那些手写的规则,建立了一个神经网络,允许它观看人类驾驶员的大量驾驶视频,并要求它输出正确的驾驶轨迹。在反复训练中,这个神经网络可能会获得类似于人类的驾驶知识。
作为世界上与OpenAI关系最深的人之一,马斯克立即指示要这么做。
2024年1月,经过一年的研发,端到端架构的FSD V12推向北美用户。这个版本号称用单个端到端的神经网络干掉了30万行C++代码。
当然,端到端的功能不仅仅是取代程序员精心搭建的混凝土山,更是在很多维度上超越传统的模块化方法。
在智能驾驶系统的信息传递中,感知不再为了向调控粒度看齐而被迫丢失信息,系统决策获得的参考信息更全面,更容易实现全局优化;
从实际体验来看,端到端的FSD更加拟人化,丝滑。何上个月刚发了“友商CEO认证”。他在加州体验最新版FSD的时候,说FSD比他这个加州新手司机强。
在AI离不开的数据标注中,由于不依赖于人类定义的识别结果,人工标注各种物体和场景的工作量将进一步减少。
另一方面,因为控制模块也变成了神经网络,可以24小时工作的GPU满负荷训练,可以把智能OTA的周期推到一周甚至一天。
在人力成本方面,李首席执行官李想表示,不再需要几千人的团队来解决Corner Case。
不出意外,端到端也因此成为2024年中国智能驾驶企业争夺的技术制高点(有时更为张扬)。
今年7月,华为和小鹏的两阶段端到端智能驾驶方案将推送给车主。理想和蔚来正在加班加点推进今年下半年的端到端登车计划,而动量、荣源亓航、商汤爵影的端到端方案也将在今年陆续登上量产车。
国内一家智能驾驶公司高层评论,从头到尾都在缩放法律。商汤绝影事业部总裁王晓刚表示,端到端是今天唯一可以成功验证的方式。
在端到端的架构下,智能驾驶将从人力密集型向计算密集型和数据密集型转变,智能驾驶有望真正走上励精图治、创造奇迹的道路,这是大语言模型近两年的成功经验。
触摸特斯拉就能穿越首尾相连的河流?
ChatGPT诞生后,很多大小企业摸着OpenAI过河,大语言模型激增。国外Google Gemini紧随其后,Meta靠Llama构建开源生态。国内文心一言、依桐钱文、星火模型、盘古模型等遥遥领先。
如果搭建起智能驾驶与标度律之间的端到端桥梁,理论上,类似的创新成果将在智能驾驶领域迅速扩散。
然而,在日前陈涛资本举办的端到端研讨会上,雨云智能CEO、蔚来模拟前负责人谢忱却泼了一盆冷水:摸着特斯拉往前走,结果不一定是过河或者掉进坑里。
大语言模型的模式进化不应该直接应用于智力驱动。
众所周知,人工智能的三要素是算法、数据和计算能力。在端到端至关重要的数据环节,国内企业还没有看到特斯拉的尾灯。
与大语言模型可以抓取互联网上的大量文本数据进行训练不同,端到端智能驾驶获取视频数据的成本和难度极高。
此前,世界上最大的自动驾驶开放数据集Nuplan的规模为1200小时,没有为端到端做准备。国内上海ai实验室普佳团队收集了整个YouTube,最终搭建了一个2000小时的数据集OpenDV-2K。
OpenDV筛选处理了240+城市的行车数据。
在端到端神经网络开发之初,特斯拉给它喂了1000万个经过筛选的人类驾驶视频片段,即使每个片段都是15秒,也是4万多个小时的高清视频。这是马斯克在2023年初透露的数据。
当时,特斯拉可供进一步筛选的驾驶视频数量每天增加1600亿帧,约为148万小时。现在大多数国内车企的数据都比去年的特斯拉少了两三个数量级,更不用说智能驾驶供应商了。如果一直上传,光是这些数据的带宽和存储成本就足以搞垮一个小规模的智能驾驶公司。
问题不仅仅是数据量,由于行车视频已经成为端到端系统的直接老师(监督信号),对视频数据的质量要求也越来越高。
视频采集的触发机制是否合理,关键场景是否完整,老司机而非新手的驾驶行为是否采集,视频数据是否足够多样…每个细节都有自己的诀窍,有些细节特斯拉还没有妥善解决。
不久前,马斯克在推特上解释了FSD V12.4.2延迟的原因。这个版本被输入了大量需要接管进行训练优化的复杂场景数据,但简单场景中的驾驶舒适性实际上有所退步。这是模型训练中容易出现的灾难性遗忘,需要采取一些措施固化神经网络的权值,重新训练。
国内智能驾驶最热门的岗位是算法工程师,但端到端的竞争是数据驱动的竞争,数据团队的重要性会越来越明显。某智能驾驶公司R&D负责人认为,国内智能驾驶数据团队最迫切的任务应该是完成闭环仿真能力,这是以低成本的方式进行端到端验证和测试的关键。
类似于数据层面的差异,国内智能驾驶公司与特斯拉在计算能力储备上的差距是肉眼可见的。
到今年年底,特斯拉有望拥有100eflops的云计算能力,国内相关企业的最高论文参数是商汤的12eflops,但分配给商汤绝影用于智能驾驶神经网络训练的计算能力未知。在智能驾驶方面投入最激进的华为,今年刚刚达到3.5eflops。
计算能力和数据的约束会显著影响算法的发展。而且,这一次特斯拉并没有把算法之石留给后来的过河者。
2021-2022年,特斯拉举办了两次AI日,披露了智家的一些技术细节和进展。虽然没有开源代码,但这两个AIDAys其实已经起到了行业的引领作用。AI日提出的Transfomer+BEV架构和占位网络,如今已经成为高级智能驾驶的基石算法。
然而,2023年,在意识到一些竞争对手正在“一帧一帧地研究PPT”后,马斯克不再举办AI日。这使得其他企业学习标杆管理更加困难。
关键时刻,国内学术界提出的端到端自动驾驶模型UniAD获得了2023年CPVR最佳论文奖,为国内企业提供了参考方向。而在开环验证系统和小样本数据下开发的UniAD,还需要一定的工程化改造和大规模数据训练。
UniAD算法结构
在多方面的约束下,包括但不限于算法、计算能力、数据等。,国内智能驾驶企业的端到端发展其实还处于踩坑阶段。一旦他们过于激进(或者根本没有条件激进),就会有翻盘的风险。
因此,智能驾驶企业在端到端对标特斯拉时,往往是在对标两个不同的特斯拉:宣传中的今天的特斯拉和实际项目进展中的一年或两年前的特斯拉。
神经网络正在被整合,团队和行业也是如此。
作为中国发展进步最高的两家企业,小鹏和华为在端到端的竞争中,在智家的开放战中并没有表现出任何激进。它们的端到端技术方案都采用两级,由感知神经网络和规划神经网络连接。
手机有没有测温软件
在一些业内人士看来,这并不是经典意义上的端到端,更像是智能驾驶算法的神经网络改造的完成。独立于两家公司的智能驾驶人士认为,这种“两阶段端到端”是一种过渡形式,可能存在类似传统方案的信息丢失问题,但对计算能力和数据要求更低,量产进度更快,更便于智能驾驶系统问题的追溯和解决。
另一个可能的原因是,智能驾驶企业在转向端到端的时候,必然会经历人员和组织架构的调整。历史包袱越重,调整阻力越大。
在这个过程中,一个不可忽视的矛盾是,理论上,负责调控的人对智能驾驶的表现负有最终责任,但由于技术分工的历史演变,在大多数智能驾驶企业中,负责感知的人往往是更懂神经网络的人。在端到端的趋势下,以传统算法为核心工作的监管部门很容易被整合、降级或优化。
特斯拉转向端到端解决方案后,原控制者选择离开。上个月,蔚来智能驾驶部门的感知与调控团队合并成一个大的模型团队,团队负责人是原感知负责人彭超[2]。与前两位不同的是,小鹏智驾总经理李丽云此前是监管团队的负责人,而华为拥有国内智能驾驶企业中规模最大、成绩最突出的监管部门。
但从长远来看,无论是大语言模型的成功经验,还是智能驾驶现实的商业压力,实现一个神经网络解决高级智能驾驶是业界的共识。曾经为感知神经网络输出工作的监管工程师被神经网络解雇是大概率事件。
只是这个过程不会那么激烈。
智驾首席科学家崔小迪赞同智能驾驶系统的上下限会端到端同时放大,因为它是一个神经网络黑匣子,在获得更高上限的过程中,传统模块方案的部分可解释性被转移。
如何保留智能驾驶系统中的可解释性,将不应逾越的规则(比如不闯红灯)表示到神经网络中,以保证端到端的应用和安全进化,将是监管工程师的重要课题。
这将有点像一个为混合动力汽车制造混合动力发动机的发动机工程师。核心任务是为最终消灭他的位置的电机和电池服务。
商汤绝影总裁王晓刚表示,现阶段智能驾驶行业还没有纯神经网络的量产方案。为了保证安全性,要么选择与传统方案端到端并行,要么选择端到端网络后接一些后处理模块或强安全码。神经网络的前进和规则的后退是一个渐进的过程。
只是如果人才还能流通转化,那么“大家都在赔钱”的智能驾驶行业可能会被推到一个端到端整合的临界点。
三星959电信版双卡双待手机
上述智能驾驶企业的R&D负责人觉得,高水平的智能驾驶企业之所以“都活不过来”,重要原因是采用了上一代的模块化技术架构,人力成本下不去,数据飞轮转不过来。
端到端门槛高,效率高,意味着没有太多车企和智能驾驶供应商掌握端到端。在这场逼近的淘汰赛中,大企业要面对自己的内耗,小企业只能在认知和效率上领先。
参考资料:
【1】公交车上端到端智能驾驶,理想,蔚来定时间表,后来。
[2]21解读|十亿车型浪潮的背后:韦小立智能驾驶组织学,21世纪经济报道。
未经允许不得转载:科技让生活更美好 » 学特斯拉做端到端,可能死得更快?