凤凰科技视频斗鱼
图片来源@视觉中国
文| Auto Pixel,作者|张家垒,编辑|毛诗阳
11月28日,智捷S7正式上市。作为华为与奇瑞合作的首款车型,自诞生之日起就吸引了众多关注。值得注意的是,这辆车像M5和M7一样,只配备了一个激光雷达。
在高端型号中将激光雷达数量减少到一个,说明在华为的智能驾驶方案中,单个激光雷达就足够了。自2022年首次推出合作车型以来,华为智能驾驶方案中的激光雷达数量从三个逐渐减少到目前的单个。同时,华为的智能驾驶方案也经历了从ADS 1.0到ADS 2.0的演进。
华为的选择是智能驾驶终于走出堆砌时代的一个缩影。本文详细讲解了华为的智能驾驶方案,以及神网可能的技术原理。在背后的硬件方案“减魂”上,华为的智能驾驶也面临着传感器融合的问题,尤其是激光雷达和摄像头的融合。
11月26日,华为智能驾驶核心业务将通过建立合资公司的模式曲线来实现。独立性“ADS 2.0解决方案真的足够成熟,可以自行成长吗?
华为智能驾驶硬件两次“减配”
从华为智能驱动到鸿蒙系统智行,华为智能驱动方案经历了从ADS 1.0到现在ADS2.0的演进。1.0时代,智能驾驶的未来路线尚不明朗。从各种传感器到高精地图,华为可以说用尽了一切能想到的办法。
比如2022年4月,北极狐Alpha S HI第一版联合上市。这款车配备了三部激光雷达,同年8月推出的Aouita 11也采用了类似的硬件配置方案。
智嘉硬件上的材料堆砌直接推高了汽车的终端价格,两车最终定价都达到了40万元的高位。而智能驾驶桩,堆了高定价,堆了汽车品牌追求的高端产品,却没有为智能驾驶用户体验做好铺垫。
包括华为在内的智能驾驶R&D团队还没有解决的一个问题是,在这些五花八门的传感器中,“语言不通”的障碍
多传感器融合非常困难,最具代表性的就是激光雷达和相机的融合。前者提供点云信息,后者直接给出影像信息。
激光雷达的工作原理是:通过发射脉冲光束,测量光束接触周围物体后反射的时间,从而计算出被测物体的距离。其优点是精度高,适应性强,可以达到毫米级的测距精度。可用于各种环境,包括强光和恶劣天气。
虽然可以精确感知周围环境的三维信息,但是激光雷达只能提供稀疏的特征数据,也就是所谓的“点云信息”。而摄像头可以直接采集图像信息并提供给系统算法,自动分析图像并识别其中的各种物体,从而做出更准确的驾驶决策。
激光雷达和照相机的区别
换句话说,激光雷达虽然精确可靠,但无法单独支持智能驾驶功能的迭代。如果华为不想走向特斯拉那样的纯视觉解决方案,那么多传感器的集成是必须要解决的问题。
如何融合传感器一直是一个难题。目前业内探索的主流融合方式之一叫做点级。这种方案需要对车内的激光雷达和摄像头的位置进行高质量的校准和极其精确的对准,使两者的内容完全重合,从而实现“硬关联”。
然而,这是一种脆弱的融合方法。如果传感器由于车辆行驶过程中产生的颠簸而发生轻微位移,微小的误差也会导致定位失败。
此外,这种融合方案会浪费大量数据。比如激光雷达采集的稀疏矩阵数据,在与相机等密集矩阵数据融合时,会浪费大量语义信息丰富的影像特征。此外,当图像特征质量较低时,性能会大大降低。
今年4月16日,华为发布了自己的BEV+Transformer+GOD方案,为华为更成熟的ADS2.0方案奠定了基础。与特斯拉的纯视觉不同,华为在传感器硬件上依然保留了激光雷达,采用了多传感器融合的方式。在这个方案中,华为如何解决激光雷达和摄像头的整合问题?
对于神科技的细节,华为并没有给出特别详细的说明。不过,在华为、香港科技大学和香港城市大学2022年发表的这篇论文中,我们可以看到华为解决激光雷达和摄像头集成问题的一些可能途径。
首先,通过激光雷达的点云数据初步获得行驶环境的特征地图。然后,基于特征地图,使用具有变换器结构的解码器预测初始边界框,粗略选择并标记驾驶环境中需要注意的物体,获得包含距离信息的边界框。
此时,系统仍在处理激光雷达收集的信息。在处理完激光雷达的信息后,系统会将这些信息投影到摄像机采集的图像上,融合2D图像的特征,并为包围盒提供语义信息。
最重要的工具之一是大型模型转换器,它可以自适应地找到2D图像和三维点云之间的相关性。对硬件对齐的要求没那么高。
通过Transformer,华为可以把雷达和摄像头、两个传感器之间的硬关联变成软关联。这样我们就可以得到一个包含了详细距离信息的,系统可以理解的感知数据。
为了提高小目标检测的鲁棒性,系统再次导入整幅高分辨率图像。通过Transformer中的交叉注意机制,2D图像以稀疏到密集和自适应的方式被再次融合。以便系统可以自适应地确定应该从图像中获得什么信息,包括信息的位置和性质。以增强先前的包围盒并使小物体的识别更准确。畅想未来科技文章
在解决了传感器融合的问题后,华为可以让神网获得更丰富的感知数据,可以帮助神经网络模型更好地感知和理解车辆周围的环境。然后通过神网络自主学习,构建3D世界模型。
激光雷达的选择
为什么华为要煞费苦心的打造神网,而不是像特斯拉一样采用纯视觉的智能驾驶方案?
事实上,华为乃至整个智能驾驶行业都没有停止过对特斯拉的学习。
2021年,特斯拉FSD Beta开始采用一套基于BEV+Transformer的智能驾驶方案,BEV是鸟瞰图,这就像打开了一个从空俯瞰上帝的视角进行智能驾驶,让车辆可以把附近的感知放到一个平面上。
特斯拉的计划为华为和其他努力的智能驾驶公司提供了另一种思路。华为在ADS1.0时代也采用了这种组合技术。
但是BEV框架仍然不能解决所有的问题,智能驾驶系统需要识别前方是什么,才能做出相应的决策。如何识别前方的物体,需要依靠大量的系统训练,将识别成功的物体输入智能驾驶系统。白名单”中等。
但是“白名单”并不足以覆盖实际交通环境中出现的大量类型的障碍物。在真正复杂的交通场景中,白名单永远不会被填满。另外,感知系统只能识别之前看到的物体,而没有办法识别一些外星物体。
BEV视角下的点云信息
这项技术有一个缺陷,就是鸟瞰图是一组只有横坐标和纵坐标的二维图像,无法感知Z轴上的高度信息。
换句话说,特斯拉的方案可以让学步儿的智能驾驶启动,但仍然不能保证走路时不摔倒。国外最新模型科技
特斯拉很快找到了自己的解决方案。在2022年特斯拉人工智能日,OCC职业网络推出。通过大量的分析和训练,它在3D 空中还原了多台摄像机提供的2D图像信息。用无数小片段展现真实世界。
但在这一点上,国内智能驾驶解决方案提供商跟不上。其实纯视觉FSD的真正难点在于海量的行驶数据。除了收集数据,还需要一个强大的模型来训练智能驾驶方案。
特斯拉自己开发芯片和Dojo模型,购买GPU将云计算能力叠加到10个Exa-flops,就是为了处理大量的传感器数据,进行深度学习和模型训练。
如果模仿国内的智能驾驶方案,自己的智能驾驶技术速度可能永远赶不上特斯拉,华为也不愿意只是一个跟随者。
国内新势力解决这个问题的原始方式是依靠高精地图。在发现高精地图因为成本和更新不及时无法长期使用后,大家开始各自制定方案,华为就是其中之一。
华为建立的多传感器融合方案是为了避免特斯拉OCC将2D图像恢复为3D所需的复杂计算。通过增加一个激光雷达来提供更详细的距离信息,华为降低了数据分析的难度,对云计算能力的需求也相应降低。
此外,在我国复杂的城市路况下,对近程测距的精度要求更高,这比试验场的情况要困难得多。这种激光雷达可以详细测量前方的障碍物,然后精确匹配摄像头的数据,得到更精确的数据。并且在暗光、大光比、雨雾天气下,摄像头识别不是那么准确的时候,也能稳定输出感知数据。
虽然华为目前保留单个激光雷达的方案在加载的硬件成本上仍然会高于只有一个摄像头的纯视觉方案,但是R&D投资和时间段也需要计算。
如今,在华为智能驾驶方案不断迭代的路上,特斯拉的纯视觉方案FSD已经很久没有披露进展了。或许,整合激光雷达的智能驾驶路线,“总成本”更低。
智能驾驶方案迭代至今,算法不再是竞争的焦点。当数据量不足时,面对不同城市的复杂路段,难免会出现漏洞。如何快速获取驾驶数据,并在短时间内将训练结果OTA给车辆,是加快城市开放的关键。
从竞争对手韦小立的部署来看,或许明年,辅助驾驶的数据竞赛将正式开始。
和这些公司一样,华为也计划在今年年底开通城市无地图智能驾驶,压力一点都不小。
按理说,在辅助驾驶开放之前,车厂应该自己带着团队跑一跑,给大车型的训练一个基础数据。但如果全国都跑,那就要耗费大量的时间、人力和计算能力。如果直接对用户开放,短时间内大量数据涌入,也会让华为不堪重负。优先开启“通勤模式”,让来自全国各地的车主在同一条路上反复奔跑,重复大模式的“自我训练"”或许是更安全的方式。
华为的整合方案在单车的硬件和计算成本上肯定会增加。这种融合算法必须证明它在“总成本”上更划算,才有可能大规模铺开。去马路上收集实战数据,继续训练AI,让车辆越聪明越能穿越“开”。
华为打算如何面对这些挑战,我们只能拭目以待。
未经允许不得转载:科技让生活更美好 » 详解华为智驾的“灵魂减配”