端到端上车！理想智驾有啥变化-科技让生活更美好

2023 年年初，理想汽车 CEO 李想发布全员信，信中提到，理想的愿景是在 2030 年成为全球领先的的人工智能企业。

在同年 4 月的上海车展上，理想汽车提出了「年内实现 100 座城市 NOA」的开城目标。

两次发声，让外界看到了理想在智驾、AI 科技领域的决心。

但是在年中的成都车展上，理想汽车却「悄悄地」更改了百城目标——百城的开城目标将以通勤模式实现。

时间来到 9 月，李想在秋季战略会上进行了「反省」，称理想汽车的智能驾驶应该提前半年全力投入。

整个 2023 年，理想汽车的智能驾驶在华为、小鹏面前都是「被动挨打」的。

提出了稍显激进的开城目标，但更改了交付方式，更致命的是，同期的华为在发布问界 M7 时提出了年底「全国都能开」的目标；在体验上，理想的智驾表现也没有做到让人眼前一亮。

理想的 AD 团队，背负了巨大压力。

但去年一整年里，鲜有外人知道，理想在进行城市 NOA 交付的同时，还在进行端到端的预研。

而到了今天，距离「李想反省」还不到一年时间里，理想智能驾驶全新技术方案，已经开始了千人团队的早鸟测试。

理想的双系统究竟是什么？它的优势在什么地方？理想是如何做到这么快部署端到端的？

带着这些问题，我们与理想汽车智能驾驶研发副总裁郎咸朋博士、理想汽车技术研发负责人贾鹏进行了一场对话。

什么是理想智驾的双系统？

今年 7 月，理想召开了智能驾驶夏季发布会，向外界公布了理想 AD 的全新技术方案，基于 E2E+VLM 大模型的双系统。

当时介绍，理想的双系统是从《思考，快与慢》中得到的启示。

理想效仿人类大脑的工作模式，将智驾系统切割为系统一和系统二，系统一即是端到端，它的效率很高，善于处理简单任务，是人类基于经验和习惯形成的直觉，足以应对驾驶车辆时 95% 的常规场景。

而系统二则是 VLM 视觉语言大模型，它更擅长逻辑推理，去执行复杂的分析，在驾驶中给系统一提供更加符合逻辑、准确的驾驶决策。

举个例子，当我们行驶到收费站时，系统一，即端到端是可以自己过 ETC 的，但是问题在于，它不知道该走哪条路，到底是走 ETC 道还是走人工道。

VLM 在这场场景下，就可以通过理解文字、LED 灯等信息，来把决策结果和参考的轨迹扔给系统一，扔给端到端模型，端到端模型推理后，采用这个信息。

以此类推，端到端能够帮助智驾系统完成大量的无趣的、日常的场景，但是到了施工、复杂路口等场景时，VLM 就会进行场景推理，双系统协作完成。

理想汽车技术研发负责人贾鹏表示，两个系统一直都在实时运行，跑端到端的模型比较小，帧率比较高，可以跑十几赫兹。VLM 的模型参数量要大很多，它是 22 亿参数，目前能跑大概 3-4 赫兹之间。

目前，双系统是松耦合的，未来可能会紧耦合，模型越来越大。蔡雨晴

另外，贾鹏还透露：「未来大模型也可能借鉴现在多模态模型的大模型发展趋势，原生多模态走，既能做语言也能做语音，也能做视觉，也能做激光雷达，这是将来思考的事情，这套东西可能就是我们心目中想追求的终极答案」。

刚才我们说的是理想的系统一和系统二，双系统协同，让车辆更拟人行驶。

其实这套系统还有系统三，也就是理想的「世界模型」，与蔚来的 NWM 世界模型不同，理想的世界模型只用于验证和强化学习，不作为信息输入。

端到端的一大好处是它的能力上限会更高。郎博在这里举了个通俗易懂的例子：传统的规则时代，系统能力的上限就是你设计产品的能力，例如你要下匝道，要走 etc，要去做一些超车变道这样的能力，这个能力可能有拆解、有细化等等，这些拆解和细化就是它的上限。

但是端到端是一种「黑盒」模式，对于能力的评价和测试是不确定性的，你很难测试和验证，所以需要优质的数据和兜底的手段。

所以理想构建了一套世界模型，来对模型进行验证，这套题库的来源有两种方式。

首先是真实车主的数据，理想根据用户，产品和整车的主观评价团队，与内部的一些老司机共同制定了「老司机标准」，他们会给理想车主的驾驶行为进行打分。

如果有一位司机经常开出 AEB，他们会认为这位司机风格偏激进，不可取，理想用这样的标准给 80 万车进行了打分，符合「老司机标准」的只有 3%。

当然还会有「错题库」，在正常的测试和开车过程中，用户的接管和退出就是错题库。

真题库和错题库都有了，理想还会再生成一些模拟题，根据现有的数据举一反三，比方说有个匝道总是出问题，那么匝道的场景，理想都会进行训练，再生成一些匝道的内容，这就是模拟题。

当然，不管是好的案例还是错题库，都是已发生的 case，事实上这些还不能穷举现实世界的真实道路情况，也就是，还有很多长尾问题是用户没遇到的。

所以理想还有一些模拟生成重建的数据，当然理想的世界模型不是纯生成的。

贾鹏认为，纯生成的数据会有幻觉，理想的做法是重建加生成结合在一起，真的像高考一样，高考并不是把你高中的每一本书、每一个字都给考一遍。

将来大部分人都是在做一头一尾，中间模型本身的设计，可能没有那么多人。一头是数据，一头是考试，大部分人都在做这两件事。

端到端上车后，开发模式有何变化？

之前行业里的 OEM 或供应商喜欢在发布会上带上智驾研发人员规模，但是在今年端到端流行起来后，这个现象少了很多。

正如上文提到，端到端更需要抓住的是两头——数据和考试，中间的模型设计其实不需要人海战术。

2023 年做无图时，理想进行了端到端的预研，并且参考了华为进行了智驾团队的扩张。

因为从当时的流程来看，全国的开城需要铺很大盘子，需要更多的人做分析、研发工程师和测试人员。但是再往后走，即便可以投很多资源，招到人，依然解决不了自动驾驶走向更高能力的问题。

到了端到端时代，比拼的是数据和算力。

理想在数据积累上一直都有比较长期的规划，例如 2019 年在理想 ONE 的摄像头旁边就加了一个数据分析和采集的摄像头。从那个时候开始，理想就在做数据闭环。snis850国民的

到了 L789，这三台车型「长得像」，摄像头和其他传感器的位置大体一致，好处就是数据可以共用，目前理想有 80 万车主，积累了超过 12 亿公里的数据，是国内最多的，没有之一。

还有一点就是算力，目前理想云端算力有 4.5EFLOPS，从云供应商的数据来看，理想的卡和算力是最多的，当然建设这样的算力集群需要大量的资金投入。

郎博称，理想的云端算力在明年会有一个指数的上升，如果做到 L3 和 L4 自动驾驶，一年的训练算力花销得到 10 亿美金，所以需要车企具有盈利能力，自动驾驶将来就是算力和数据的竞争。

当然，在这次访谈中，郎博和贾鹏也聊到了一些端到端时代的开发细节。

例如，黑盒模式导致了结果的不可解释，一旦车辆出现了怪异行为该怎么办？

目前理想在推送的版本，其实是做了安全兜底工作，端到端模型生成也是行驶轨迹，理想会筛查这些问题并且做过滤。

借端到端超车？理想 AD 如何实现高效迭代？

在采访之后，我们在理想北京顺义总部周围进行了简单的试驾，这套端到端系统给我们的感受是，它的一些关键场景的表现确实更加拟人，例如复杂路口的连续绕行，确实少了「规则感」。

去年年中还在修改开城目标的理想，是怎么在一年内就实现端到端千人内测的？

通过这次沟通，我认为理想 AD 能够快速迭代的原因有两个，第一是团队的组成和分工，第二是李想给予的重视程度和支持。

理想的自动驾驶团队分为 RD 团队和 PD 团队，PD 团队主要负责工程落地，RD 团队则主要负责技术预研。

理想一直都有一条交付的明线，包括去年在做的 NPN 和无图的量产交付；暗线则是预研，之前理想 AD 的大多数资源都在交付上，但是算法和研发人员会自发地做 RD 工作。

郎博称去年一年，他们做了三种技术方案，包括了 NPN、无图和端到端的双系统。

目前理想主要资源在做双系统的交付，但同时也在进行下一代技术的预研，下一代技术指的就是上文中贾鹏提到的对未来技术趋势的判断，包括统一的大模型等等。

另一个原因是李想本人的重视程度，去年年中秋季战略会，李想生反思称应该提前半年全力投入自动驾驶，也是在那次会上，李想明确了智能驾驶是公司的重要战略。

写在最后

郎博称，他们在训练了 80 万 Clips 的数据量时，系统还不能通过环岛，但是在训练了 100 万 Clips 后，就惊喜地发现系统可以做到了。网红封禁名单第五批

这是端到端的魅力，过去想要系统自行掉头，需要根据不同角度的路口画拟合线，相同繁琐，但是现在只要给系统大量优质的数据就行。

很难想象你给系统投喂千万级 Clips 数量，它将展现出什么样的效果。

在进行了沟通和体验后，我个人有个比较深刻的感受是，智能驾驶真正的大决战将会在如今的端到端时代。

端到端将会彻底改变智能驾驶，包括智能驾驶研发团队的组织架构、工作方式和呈现的智驾能力。

而智驾的分水岭也很有可能在端到端时代到来，理想的端到端方案最快将在今年 11 月交付给用户，理想非常有信心能够在端到端时代领跑智能驾驶，在算力与数据的竞争上，理想目前还不怕竞争对手。

这场竞争，比拼的是数据和算力，但归根到底是钱的竞争。

END

未经允许不得转载：科技让生活更美好 » 端到端上车！理想智驾有啥变化

端到端上车！理想智驾有啥变化

作者：pu

相关推荐