李斌在打一百层楼的地基

更深刻了解汽车产业变革

出品: 电动星球

作者:毓肥

上周的 NIO IN 蔚来技术日,讨论度没有想象中高。

一方面在于,观众接受度最高的两款产品:神玑 NX9031 和 NIO Phone N24,此前就已经有披露,而另一方面,两大技术向的核心——世界模型和 Banyan 3.0.0,还没正式上线。

但这不影响李斌在群访中的热情,一些关键语录,大家相信周末都听到了:

「能不能不发周榜?」

「激光雷达跟安全气囊一样,是商业问题」;

「我不认为 Robotaxi 是个鼓舞人心的事情」…

如果说去年的 NIO IN,蔚来发布了全栈技术的「大纲」,那从今年开始,NIO IN 会走向细节,抓住重点。但核心依然没变:展示蔚来自研技术的前瞻性,和领先性。

李斌的原话,是将全栈自研总结为「我们要打一百层楼的地基」——乍听很泛,他则用另一个词「十层楼」,来对比蔚来自己所做事情的难度。

蔚来强调长期主义、久久为功,但问题在于,蔚来现在所做的事情,和行业内其他标的比起来,真的有「十层楼」和「一百层楼」的差距吗?

这个问题也许要等到下两届,甚至更往后的 NIO IN,才能看清答案。

但今天我们能聊的,是蔚来已经露出的「地基」冰山一角。

下面开始。

关注电动星球公众号,后台回复「蔚来」

查看 NIO IN 和 NIO Day 的背后故事

世界模型

这应该是本届 NIO IN 最核心的环节。

先下结论:这是蔚来面对智能驾驶极其激烈的竞争趋势,打出的关键牌,也是李斌「地基」逻辑中关键一环。

然后我们先把 NIO IN 放在一边。

2018 年 3 月 27 日,来自 Google Brain 实验室的 David Ha、来自瑞典人工智能实验室的 J ü rgen Schmidhuber,在 Arxiv 上合作发表了一篇名为《World models》的论文。

这篇论文也许不是世界模型赛道的《Attention is all you need》,但可以算是承前启后之作。

启后,指的是这篇论文提出了大量与最近两年世界模型符合的概念,包括世界模型的结构、功能、特点,等等。

承前,指的是 David 和 J ü rgen 的成果,受到了 1971 年「系统动力学之父」Jay Wright Forrester 经典论文《Counterintuitive Behavior of Social Systems》里面一个核心概念的启发:

Mental Model(精神模型),Jay 将其形容为「人脑对周边世界的镜像」。

50 年后,Jay 的理论照进自动驾驶的现实。

2022 年 6 月 27 日,现 Meta 副总裁兼首席 AI 科学家 Yann LeCun,发表了论文《A Path Towards Autonomous Machine Intelligence》,里面提到了他对一个可用的世界模型的定义:

感知模块,接收传感器信号并估计当前世界的状态;

模型模块,估算缺失的、预测未来的世界状态信息。

其中世界模型模块里面,还包括预测、规划、决策、学习、记忆、奖励系统等一系列子系统。

套用马斯克的名言,全自动驾驶本质上就是解决「现实世界的 AI 问题」。而世界模型,是业界开始思考、探索,并逐渐落地量产的一条自动驾驶底层赛道。

然后我们回到 NIO IN,任少卿将团队对世界模型的投入,形容为「具有蔚来风格的研发」。

李斌的原话则是:「这是全球大模型领域竞争的最前沿」。

任少卿上台的第一件事,不是直接开讲,而是做了个社会实验:他让参会者闭上眼睛,思考一棵树从春天到秋天的枯荣过程。

绝大部分人可以在脑海中还原这一画面,而「还原」就是业界希望世界模型做到的。

蔚来的世界模型叫 NWM(NIO World Model),它具备一个世界模型的两个基础技能:空间认知 – 想象重建,和时间认知 – 想象推演。

那它到底能干嘛?

举个例子,NWM 可以基于同一个场景下的真实数据,模拟出「如果我这样做,会有怎样的后果」的事实过程。比如同一个路口,NWM 可能模拟出左转、右转、直行的操作,并生成仿真视频。

但这不意味着 NWM 已经足够成熟,任少卿表示,任何端到端的训练需要海量数据,世界模型只是一个典例。

以 Banyan 2.6.5 推送的端到端 AEB 模型为例,目前蔚来已经收集了 20 亿公里的数据,从中挑选了 1 万多个事故用于训练。酷派D5800

所以李斌认为,NT2 平台中确定用第四颗 Orin X,跑通群体智能的流程,对于蔚来收集数据意义重大。

如任少卿所言,这属于蔚来风格的底层思考。

2021 年 8 月 16 日,斯坦福大学人类中心人工智能研究所在 Arxiv 发表了名为《On the Opportunities and Risks of Foundation Models》的论文,首次提出了「foundation models 基础模型」的概念。

论文里面认为,任何在大规模广泛数据上,使用大规模自监督进行训练,并且可以适应下游各项任务,实现「处理不同模态、影响物理世界、进行推理、与人类互动」的模型,就可以称为基础模型。

应用于自动驾驶的世界模型,可能是很接近量产形态的,影响人类出行生活的基础模型。

华为p50pro价格官网报价

而世界模型,以及业界正在追赶的「one model」路线,正在影响着各家自动驾驶团队的规模、选才,甚至是优化。

任少卿也在世界模型的相关问题上,首次回应了此前蔚来自动驾驶团队重组的传闻。他将这次重组形容为「从竖着切到横着切」:

「我们希望模型不是分散的,是整合的,比端到端更进一步的。所以我们需要把相应的做模型的同事放到一起,然后做应用的放到一起。」佳能60d和尼康d7000

李斌的回应则很简单:

「任何组织架构的变动,都是跟着技术路线走的」。

天枢与 AUTOSAR

如果说世界模型离我们有点远,那么即将伴随 NT3 平台登场的天枢 OS 完整体,则是蔚来「技术地基」中的砥柱。

去年李斌说「天枢 OS 要取代 AUTOSAR」,今年天枢正式全量发布,李斌说这背后是四年的研发时长,王启研则是天枢从无到有的核心人物。

李斌表示,2018 年王启研拉着他开了好几个小时的会,痛陈 AUTOSAR 的问题,「而且我们也要付钱」。

后来李斌算了个账,蔚来要卖多少台车,自研全域操作系统才划算,然后就开干了。

AUTOSAR 的全称是「汽车开放系统架构」,它诞生的背景是整车厂、零部件供应商、电子软件系统公司寻求标准化的过程。

AUTOSAR 的部署原则是「统一标准、分散实施、集中配置」,这 12 个字贯穿了过去 21 年的汽车电子世界。

蔚来希望在 AI 时代提出一些新思考。

王启研则将其总结为「面向 AI 的智能汽车,需要有处理超高带宽的能力、极低的时延、跨域融合的能力、持续进化的能力、极致的可靠性、体系化的信息安全与隐私保护能力」。

我们今天长话短说,只聊两点:带宽、时延。

先来个例子,大众 MEB 平台的 E3 电子电气架构,这是一套典型的,基于 AUTOSAR 标准开发的电子电气架构。

在 MEB 平台中,用于 Mobileye EyeQ4 芯片、ADAS 摄像头、底盘、方向盘等部件通信的以太网,速率为 100Mbps,而用于上述部件与座舱屏幕、HUD 通信的以太网,速率为 1000Mbps。

王启研表示,蔚来 ET9 搭载的 31 个感知硬件,起码需要 43.85G 的带宽(未透露详细单位,可能是 Gbps 或者 GBps,两者相差 8 倍)——这是千兆以太网的起码数十倍。

除了带宽,我们再聊下时,这两者结合起来,就是 AI 时代核心的两个性能指标:带宽可以类比模型大小,时延则可以类比一个模型的刷新率。

王启研表示,天枢 OS 的虚拟机监视器,可以相比 AUTOSAR 标准开发的监视器,减少 50% 的时延;而安全隔离模块的自恢复速度,则可以做到比 Linux 系统快 100 倍。

数字量化可以一鸣惊人,关键是要获得行业认可,特别是当你试图超越二十年以来的行业标准。

上一个这样做的是特斯拉,李斌凭什么觉得蔚来能成?

「就像是盖楼,我的目标是 10 层,那我就要 10 层的地基;我要盖 100 层,那你必须给我搞 100 层的地基」,这是他总结天枢、世界模型、换电等等「蔚来特色自研」时说的话。

站在更广的维度思考之后,李斌认为现有的 AUTOSAR 标准有点过时,「效率未必是最优的,架构也都已经很老了,同时费用也不低」。

于是蔚来花了四年时间,把操作系统的地基打好了——这是李斌的原话,而且用的是「搭得很好」四个字。

有了地基之后,蔚来接下来要做的,是「上层的应用」。

「越往后,它的价值会越大」,李斌这样总结。

坚决不做 Robotaxi

我们没想到李斌会这样旗帜鲜明地,反对一条堪称当红的技术路线。

他的原话是「我们坚决不做 Robotaxi,我觉得这件事情一点都不鼓舞人心」。而且他反对的理由,和他反对 Robotaxi 这件事本身,一样出乎意料。

「Robotaxi 技术上一定会成熟的」,李斌没有否认这项技术不能落地——「否则都别谈人工智能了」——他否认的是这项技术的前景。

《人物》曾经在李斌专访中提到过这样一个故事:

2018 年 12 月的一个晚上,李斌和王屹芝看完电影回家,发现摩拜被堆成一座小山,于是他们回家换了衣服,从晚上 10 点到凌晨 2 点,清理了国贸周边两个街区的摩拜。

「为什么?太过分了。」李斌上周末再次提起这个故事,原因是 Robotaxi 可能导致的无序生产。

为了抢生意,李斌认为 Robotaxi 会过度生产。

「你觉得都能赚钱吗?政府给牌照,这不是总量控制吗?总量控制不就要合规吗?如果我生产了一堆 Robotaxi,把上海塞满了,政府会干嘛?」

他最后开了个玩笑:「交通共享方面,我不是没有发言权的」。

2018 年 4 月 3 日,美团 37 亿美元收购摩拜,李斌 146 万元投资换来 13.4 亿元回报;2024 年 6 月 28 日,李斌投资的嘀嗒出行上市,成为共享出行第一股。

他认为嘀嗒的成功,可以佐证 Robotaxi 商业模式的艰难。

李斌举了个例子:嘀嗒的平均成交量,每人每天 1.1 单,这是真正意义上「顺风车」的客观市场需求,「它从来不是单独的技术问题,它是个社会问题」。

同样不是技术问题的讨论,还在于 ET9 的三颗激光雷达。

李斌的回应同样热烈:「谁说激光雷达没用,非蠢既坏」。

关于这个问题,大家讨论了接近五年,核心原因是 2019 年 4 月 Autonomous Day 上,马斯克说「你会开车不是因为你眼睛发射激光,而是你看得见路」。

有意思的是,人们常常把李斌和马斯克这两句话对立起来,而事实上他们在说同一件事:激光雷达不是自动驾驶的充分条件,但不同商业模式下,激光雷达的存在意义差别巨大。

李斌这样解释:当年 Model 3 确定传感器构型的时候,激光雷达的成本是数万美元一个,「比车还贵,而且体积巨大」。

冷知识:Model 3 发布于 2016 年 4 月 1 日。

而到了如今,蔚来即使选用非常好的激光雷达,「也就几千人民币一个」。

关键在于,李斌认为,激光雷达应对的是小数点后面无穷位的 Corner case。「如果大家做得都很好了,到 99.9 了,那激光雷达可能会做到 99.99」。

而有意思的是,我们今天报道见刊发布不到 24 小时之后,小鹏汽车将在 730 发布会上,讲述有关 Robotaxi,以及端到端智能驾驶的思考和战略。

48 小时之前的李斌,也在智驾护城河的相关问题上,回应了媒体的顾虑「当然这不是说小鹏智驾做得不好,他们做得非常好」。

「但在中国竞争这么激烈,技术路线这么快速迭代的情况下,我觉得只能全力以赴,按照自己理解的最底层的逻辑、模型,坚决地搞,只能这样」,李斌最后这样说。

同样的话,可以用来检验蔚来接下来要做的事。

刚刚展示了自己底层理解其中一部分的蔚来,需要用实际表现,回应他们可以为用户带来怎样的体验。研发、落地、口碑,这里是三个不同的故事。

化用程序员圈子的一个古老梗:Talk is cheap, show me the experience.

(完)

未经允许不得转载:科技让生活更美好 » 李斌在打一百层楼的地基