中国智驾“端到端”重回起跑线
原创 宇多田 宇多田
2025年03月20日 22:27 上海 166人
承认特斯拉强,并不是一件难以启齿的事。
上周末在上海市区试了2个小时的特斯拉FSD。它在细节上的种种表现,让我觉得连国内L4公司的估值,都显得有点搞笑了。
FSD的强,与其说是“扎实的基础能力”,不如更诚实一点儿:国内研发团队,就从未做出过“真端到端”。
即便一度上过“一段式”端到端的Momenta,与FSD仍然差距巨大。
现在来看,市场上最聪明的,莫过于那些擅长观望的外资车企;而“一段式”赢家,只会在工程化能力卓越的企业里诞生。
最重要的是,由于谁也不知道FSD架构(新负责人不出来分享后,很多东西复制不了),这次,是真的要靠国人自己走0.5~1这条路了。
相比社交媒体上铺天盖地的“FSD在中国道路翻车”,地大华魔的工程师们,或者说只要是真正做过高阶智驾工程化落地的研发,都给出了截然相反的态度:
羞愧与兴奋。
前者是对自己像“屎”一样“变道”与 Cut in 能力的条件反射;后者,则是因为不少人在“智驾真正被大规模使用”的遥遥无期中几近崩溃。
而FSD再次让他们看到了前进的希望。
实际上,FSD在2021年就上了所谓的“两段式端到端”,也一直保持着跟国内一梯队水平2~3年的断档式差距。
换言之,特斯拉的真端系统,是切切实实在“两段式”上积累出来的成果。
与之对比,缺钱缺数据、量产车视频切片没发挥太大作用(主机厂数据闭环都做成半吊子)的国内智驾产业,能达到如今特斯拉FSD效果的可能性,几乎为零。
所以说,最近被谣传“砍掉一段式”的Momenta,其实更像是主动回炉重造。
因为地大华魔均在见识到FSD入华后的实力后,重整旗鼓,向特斯拉看齐,老老实实回到“一段式”起跑线:
真正上车的方案退回“两段式”。
别喷,至少现阶段,这是保证系统稳定且有效运行的最佳量产选择(放心吧,两段式的也比主机厂自研强)
从Deepseek身上汲取经验,在“两段式”中加入“强化学习”等方式,死磕“基础能力”。
虽然特斯拉从未公开过FSD的端到端技术架构,但不妨碍这家伟大的技术公司统一了头部公司的技术架构迭代方向:
华为加大“一段式”投入;一梯队皆在“一段式”储备阶段。
因此,什么VLM和VLA……
理想汽车每年的论文大讲堂和蔚来吹的“世界模型”牛逼,估计只能骗骗啥都不懂的传统主机厂与二级市场,还有实践经验为0的学术界子弟。
这些东西,均已经被真正一线产业界弃如敝履。
就像2019年特斯拉对蔚小理的重大意义一样,马斯克的FSD再次引导着泱泱智驾人奔赴终点。
只不过这一次,是真的要靠自己琢磨架构了。
请注意,这里的“回到起跑线”,并不包括二三线企业与PPT公司。
因为大部分资金已流向头部企业。只有资金充足、在二段式上有积累的公司才有机会做好数据闭环,触达“一段式”。
此外,一段式赢家,只会在工程化能力强大的企业中诞生。
不然,商汤旷视们早行了。
01
一定要试FSD
坦率讲,在过去三个月,我频繁尝试几个国内的“端到端”系统后,总会产生一个疑问:
“到底哪里像人?为什么只有我感受不到?”
然后,一切就像“皇帝的新衣”一样,我把这种一头雾水的感受,归咎为我不会开车:只坐副驾,是必然感受不到“拟人”和“端味儿”的。
甚至于,我不仅感受不到“端味儿”,还时不时焦虑上头:
各家在“选道”“变道”“汇流”“过红绿灯”和“路口掉头”时的僵硬、慌张、缓慢和笨拙,让我每次都像咖啡过敏一样不耐烦抖腿,额头冒汗。
“怎么又退回来了?到底走不走?不行今天就到这儿吧。”
急性子如我,别说安全碰撞问题,只要超过两秒延迟,我都不想打开智驾第二次。
直到用了FSD。
当然,如果只看接管率和路口表现,它的表现绝对是差劲儿的。
在没有国内道路数据训练的加持下,FSD就像个刚来中国的莽撞大哥,在百度糟烂的导航指引下频繁走错道。
但这些都改变不了“他本人车技高超”的事实。
周末晚7车流密集的上海长宁区江苏路,FSD在“车与车交互”和“防御性驾驶”上的表现, 比我爸开的都好:
该加速时一秒内跟进前车,不到100米瞄到右边车汇入时再“一点一点一点”减速到跟前轻巧一绕,同时又能保证与左边车流的安全距离…
几个动作一气呵成。
安全、舒适和绝不耽搁一秒的敏捷性,我都感受到了,一切都那么恰到好处!
而一模一样的场景,我恰好几周前在两辆车上都经历过:
一次刹停,等待接管;一次直接往车上撞,吓得我发誓再也不用国内系统。
再拿“刹车”舒适度来说,国内版本像是一秒一图的幻灯片,顿挫感很强;而FSD就是一秒放二十多张的电影效果。
更不用说,它还超会cut in!
总而言之,如果说国内的智驾产品像是大老爷们用锯锯开的——一面光滑,另外几面全是毛刺;
那么FSD更像是用女性的手精雕细琢出来的,上下左右没有死角。
当然,这归根结底,还是100倍于传统方法参数量训出来的脑子“更灵光”。
但是,如果只谈数据多少,那理想怎么也该做出这种效果的50%了。
但我们试过理想高阶系统后,其在上海市区的路口博弈、变道、选道都不出色,更不用说在“舒适”等相关细节上的处理。
所以,与其评价FSD“丝滑”,不如说,一段式“端到端”更会模仿人类细腻且敏感的心理。
好产品,一定要把“人性”计算进去。
这也让我开始彻底怀疑:国内各种高阶智驾项目里的“纸面标准”,是不是有啥问题?
“接管率”这个词儿,真的靠谱吗?
要知道,一家接管率数据优秀的智驾公司,曾让我经历了两次“生死时速”,跳下车就想骂人;
而总是在走错路、违反交规被迫接管的FSD,却让我真正意义上开始信任特斯拉这家公司。
“说不定…马斯克真能把L4搞出来?”
02
激光雷达,该拿掉了
对我自己来说,FSD最大优点,就是“毫无延迟感”(我真的愿意为此付费)。
这一点,几乎完败国内所有智驾系统。
而它表现敏捷果断的最大缘由之一,便是用纯视觉做“端到端”。
特斯拉摄像头36HZ的刷新速度,约等于“从光子打到传感器,再到输出轨迹”的时间只有150毫秒左右。
而国内大多非端系统,每个模块的延迟加起来就要大于400毫秒。
此外,激光雷达的帧频,也只有10HZ。
而国内所有高阶量产版本,除了卓驭使用双目,都要靠激光雷达。
真的需要感叹一句:6年过去,从FSD的表现来看,马斯克第N次对了。
“自动驾驶本质是一个AI问题。
但L4公司们却把它变成了一个‘半工程半AI’问题:用传感器把AI难度降低。实际上,如果想把系统做到极致水平,什么传感器都降不低AI问题的难度。”
一位工程师指出,马斯克对AI的理解一直极为透彻。
“传感器会阻碍你把它当做AI问题去钻研。就像你必须持续锻炼头脑以学习走路,而不是先加若干个‘拐杖’,譬如高精地图和激光雷达。
人做事都有惰性。一旦有捷径,就一定会往捷径上走。
譬如,处理激光雷达网络,是处理视觉参数量的百分之一。既然用激光雷达可以达到80分,那就80分得了。
特别是在主机厂项目格外紧急、有时间节点要求的前提下,多数人一定会选择简单的方法:神经网络+激光雷达。
但如果你想有个100分的大脑,路走的更长远,就应该去走纯视觉。”
我认同他的看法:
工程能力是一家智驾公司的下限;而AI能力,则是整个智驾产业的最上限。
前者筛掉了80%的公司,而后者会在剩余20%的公司里脱颖而出。
目前来看,国内所有智驾公司训练出的大模型,都有很大问题。谁也没有赢过谁。
03
写在最后:
没想到,马斯克6年前那句“用激光雷达的人注定会失败”的子弹,重新打进了折腾10年没折腾出好东西的智驾人心脏里。
不过,在“一段式”没到达拐点之时,先把“两段式”做透做好,而不是对“一段式”无深思熟虑的前提下纯耗资源做量产,是明智之举。
也期望百度能够助FSD一臂之力,把训练和导航问题解决掉,在国内道路上展现出真正的实力。