中国智驾“端到端”重回起跑线原创宇多田宇多田2025年03月20日22

中国智驾“端到端”重回起跑线

原创宇多田宇多田

2025年03月20日 22:27 上海 166人

承认特斯拉强，并不是一件难以启齿的事。

上周末在上海市区试了2个小时的特斯拉FSD。它在细节上的种种表现，让我觉得连国内L4公司的估值，都显得有点搞笑了。

FSD的强，与其说是“扎实的基础能力”，不如更诚实一点儿：国内研发团队，就从未做出过“真端到端”。

即便一度上过“一段式”端到端的Momenta，与FSD仍然差距巨大。

现在来看，市场上最聪明的，莫过于那些擅长观望的外资车企；而“一段式”赢家，只会在工程化能力卓越的企业里诞生。

最重要的是，由于谁也不知道FSD架构（新负责人不出来分享后，很多东西复制不了），这次，是真的要靠国人自己走0.5~1这条路了。

相比社交媒体上铺天盖地的“FSD在中国道路翻车”，地大华魔的工程师们，或者说只要是真正做过高阶智驾工程化落地的研发，都给出了截然相反的态度：

羞愧与兴奋。

前者是对自己像“屎”一样“变道”与 Cut in 能力的条件反射；后者，则是因为不少人在“智驾真正被大规模使用”的遥遥无期中几近崩溃。

而FSD再次让他们看到了前进的希望。

实际上，FSD在2021年就上了所谓的“两段式端到端”，也一直保持着跟国内一梯队水平2~3年的断档式差距。

换言之，特斯拉的真端系统，是切切实实在“两段式”上积累出来的成果。

与之对比，缺钱缺数据、量产车视频切片没发挥太大作用（主机厂数据闭环都做成半吊子）的国内智驾产业，能达到如今特斯拉FSD效果的可能性，几乎为零。

所以说，最近被谣传“砍掉一段式”的Momenta，其实更像是主动回炉重造。

因为地大华魔均在见识到FSD入华后的实力后，重整旗鼓，向特斯拉看齐，老老实实回到“一段式”起跑线：

真正上车的方案退回“两段式”。

别喷，至少现阶段，这是保证系统稳定且有效运行的最佳量产选择（放心吧，两段式的也比主机厂自研强）

从Deepseek身上汲取经验，在“两段式”中加入“强化学习”等方式，死磕“基础能力”。

虽然特斯拉从未公开过FSD的端到端技术架构，但不妨碍这家伟大的技术公司统一了头部公司的技术架构迭代方向：

华为加大“一段式”投入；一梯队皆在“一段式”储备阶段。

因此，什么VLM和VLA……

理想汽车每年的论文大讲堂和蔚来吹的“世界模型”牛逼，估计只能骗骗啥都不懂的传统主机厂与二级市场，还有实践经验为0的学术界子弟。

这些东西，均已经被真正一线产业界弃如敝履。

就像2019年特斯拉对蔚小理的重大意义一样，马斯克的FSD再次引导着泱泱智驾人奔赴终点。

只不过这一次，是真的要靠自己琢磨架构了。

请注意，这里的“回到起跑线”，并不包括二三线企业与PPT公司。

因为大部分资金已流向头部企业。只有资金充足、在二段式上有积累的公司才有机会做好数据闭环，触达“一段式”。

此外，一段式赢家，只会在工程化能力强大的企业中诞生。

不然，商汤旷视们早行了。

一定要试FSD

坦率讲，在过去三个月，我频繁尝试几个国内的“端到端”系统后，总会产生一个疑问：

“到底哪里像人？为什么只有我感受不到？”

然后，一切就像“皇帝的新衣”一样，我把这种一头雾水的感受，归咎为我不会开车：只坐副驾，是必然感受不到“拟人”和“端味儿”的。

甚至于，我不仅感受不到“端味儿”，还时不时焦虑上头：

各家在“选道”“变道”“汇流”“过红绿灯”和“路口掉头”时的僵硬、慌张、缓慢和笨拙，让我每次都像咖啡过敏一样不耐烦抖腿，额头冒汗。

“怎么又退回来了？到底走不走？不行今天就到这儿吧。”

急性子如我，别说安全碰撞问题，只要超过两秒延迟，我都不想打开智驾第二次。

直到用了FSD。

当然，如果只看接管率和路口表现，它的表现绝对是差劲儿的。

在没有国内道路数据训练的加持下，FSD就像个刚来中国的莽撞大哥，在百度糟烂的导航指引下频繁走错道。

但这些都改变不了“他本人车技高超”的事实。

周末晚7车流密集的上海长宁区江苏路，FSD在“车与车交互”和“防御性驾驶”上的表现，比我爸开的都好：

该加速时一秒内跟进前车，不到100米瞄到右边车汇入时再“一点一点一点”减速到跟前轻巧一绕，同时又能保证与左边车流的安全距离…

几个动作一气呵成。

安全、舒适和绝不耽搁一秒的敏捷性，我都感受到了，一切都那么恰到好处！

而一模一样的场景，我恰好几周前在两辆车上都经历过：

一次刹停，等待接管；一次直接往车上撞，吓得我发誓再也不用国内系统。

再拿“刹车”舒适度来说，国内版本像是一秒一图的幻灯片，顿挫感很强；而FSD就是一秒放二十多张的电影效果。

更不用说，它还超会cut in！

总而言之，如果说国内的智驾产品像是大老爷们用锯锯开的——一面光滑，另外几面全是毛刺；

那么FSD更像是用女性的手精雕细琢出来的，上下左右没有死角。

当然，这归根结底，还是100倍于传统方法参数量训出来的脑子“更灵光”。

但是，如果只谈数据多少，那理想怎么也该做出这种效果的50%了。

但我们试过理想高阶系统后，其在上海市区的路口博弈、变道、选道都不出色，更不用说在“舒适”等相关细节上的处理。

所以，与其评价FSD“丝滑”，不如说，一段式“端到端”更会模仿人类细腻且敏感的心理。

好产品，一定要把“人性”计算进去。

这也让我开始彻底怀疑：国内各种高阶智驾项目里的“纸面标准”，是不是有啥问题？

“接管率”这个词儿，真的靠谱吗？

要知道，一家接管率数据优秀的智驾公司，曾让我经历了两次“生死时速”，跳下车就想骂人；

而总是在走错路、违反交规被迫接管的FSD，却让我真正意义上开始信任特斯拉这家公司。

“说不定…马斯克真能把L4搞出来？”

激光雷达，该拿掉了

对我自己来说，FSD最大优点，就是“毫无延迟感”（我真的愿意为此付费）。

这一点，几乎完败国内所有智驾系统。

而它表现敏捷果断的最大缘由之一，便是用纯视觉做“端到端”。

特斯拉摄像头36HZ的刷新速度，约等于“从光子打到传感器，再到输出轨迹”的时间只有150毫秒左右。

而国内大多非端系统，每个模块的延迟加起来就要大于400毫秒。

此外，激光雷达的帧频，也只有10HZ。

而国内所有高阶量产版本，除了卓驭使用双目，都要靠激光雷达。

真的需要感叹一句：6年过去，从FSD的表现来看，马斯克第N次对了。

“自动驾驶本质是一个AI问题。

但L4公司们却把它变成了一个‘半工程半AI’问题：用传感器把AI难度降低。实际上，如果想把系统做到极致水平，什么传感器都降不低AI问题的难度。”

一位工程师指出，马斯克对AI的理解一直极为透彻。

“传感器会阻碍你把它当做AI问题去钻研。就像你必须持续锻炼头脑以学习走路，而不是先加若干个‘拐杖’，譬如高精地图和激光雷达。

人做事都有惰性。一旦有捷径，就一定会往捷径上走。

譬如，处理激光雷达网络，是处理视觉参数量的百分之一。既然用激光雷达可以达到80分，那就80分得了。

特别是在主机厂项目格外紧急、有时间节点要求的前提下，多数人一定会选择简单的方法：神经网络+激光雷达。

但如果你想有个100分的大脑，路走的更长远，就应该去走纯视觉。”

我认同他的看法：

工程能力是一家智驾公司的下限；而AI能力，则是整个智驾产业的最上限。

前者筛掉了80%的公司，而后者会在剩余20%的公司里脱颖而出。

目前来看，国内所有智驾公司训练出的大模型，都有很大问题。谁也没有赢过谁。

写在最后：

没想到，马斯克6年前那句“用激光雷达的人注定会失败”的子弹，重新打进了折腾10年没折腾出好东西的智驾人心脏里。

不过，在“一段式”没到达拐点之时，先把“两段式”做透做好，而不是对“一段式”无深思熟虑的前提下纯耗资源做量产，是明智之举。

也期望百度能够助FSD一臂之力，把训练和导航问题解决掉，在国内道路上展现出真正的实力。