昨天看了个视频，某个媒体关于几个品牌的智驾感受，最后的他们的观点和我的体验基本一

昨天看了个视频，某个媒体关于几个品牌的智驾感受，最后的他们的观点和我的体验基本一致。

去年有媒体采访过我，最后一个问题是关于智驾的，我记得我最后说的一句话是："技术当然是有后发优势的，但有的是短跑选手，有的是长跑选手。现在也只是刚刚开始罢了，不用太早下结论。"这个要看企业的技术的前瞻性，定力和稳态，忽快忽慢，眼光短浅的很容易像现在这样掉梯队。

另外再说一下VLA。最近看有人在一些平台带节奏，盲目鼓吹VLA要怎么怎么样。

我来尽量通俗的一下，其实我一直不太说智驾方面的事，是因为哪怕是计算机硕士科班出身，我也觉得自己水平不行。很多时候了解的越多，越知道自己渺小。

搞技术的奇妙之处在于：它赋予我们勇气，又让我们谦卑。

而不了解技术的一些人容易被各种话术带偏，往往就容易张嘴就来；有些媒体更没有什么判断标准，简单的给钱就来。

VLA模型作为自动驾驶领域的前沿技术，当然是好东西，具有重要价值。但其成功部署高度依赖于硬件算力支持。在技术实现路径上，目前存在两种主要方案：

多段式融合（端到端与VLA并行部署）和一段式VLA（将端到端决策与VLA推理完全融合）。

端到端+VLA的多段式融合则将端到端决策与VLA推理分离，通常使用两颗芯片分别运行两种算法，端到端负责基础决策，VLA提供更高级的语义理解和长链条推理能力。这种架构决策过程更透明，但存在模块间信息传递延迟问题。

端到端是类似于人类的经验和直觉，决策速度极快。就像人类掌握平衡一样，没有那么多思考，更多的是一种习惯和直觉，所以经常比喻成小脑。当然了这不是说端到端就不需要算力了，即便是小脑，也是有一定的算力的。由于决策过程类似于人类的直觉，虽然快但缺乏可解释性，决策逻辑不透明。但在低算力的情况下，这几乎是唯一的最佳选择。

VLA是属于决策过程包含深度思考和推理，延迟较高，但决策过程透明，能够展示推理逻辑。所以决策的会很慢，这就需要更高的算力来弥补。而Orin的算力太低了，其实现在用在VLA上是完全不够看的，导致决策过于缓慢，而路况和车速要求的实时性要求很强。

双Orin一个跑端到端，一个跑VLA的想法固然好，但是因为算力的影响，也容易浪费算力两个都跑不好。

双Orin X方案，理论上可提供508TOPS的算力，足以分别支持一个普通端到端模型决策（约200TOPS）和一个非常轻量化的VLA模型（起码需要300TOPS）的并行运行。但实际部署中，由于需要满足响应时间的要求，两个模型都参数都不能太大，不容易控制好系统下限，如果兜底的规控又没有经验，就会最后导致效果有限。与其两个一起上，试图取长补短，也可能两个都被硬件的算力制约了。

再说回Thor，其实也只有750Tops的算力，比双Orin强点，响应能快一点，但提升的也有限，纸面上是提升30%，没法翻数倍。

所以对于VLA这种长链条推理来说还是不够看，如果是多段式融合，还要把算力再分给端到端一部分。

因此我觉得用Thor跑端到端+VLA只能说是刚刚勉强够用。因为只有一个芯片了，端到端与VLA的算力分配需要精心设计，否则可能导致两者性能均不理想。

而且这个模式下，而无论是端到端还是VLA的决策，实际上是有重复性的。前面10米出现一个车加塞了，端到端直觉应该减速了，VLA经过推理，也这么认为。其实是存在浪费算力的行为的。

那么下个阶段，我个人认为谁先在更高的算力下降低VLA的延迟，实现一段式VLA，才可能在后面掌握主动。

一段式VLA需要极高的算力支持，因为模型同时处理视觉输入、语言理解和动作生成三个复杂任务。

要知道，至少500TOPS的算力才能实现7-10Hz的VLA响应，而7-10Hz本身也并不算快速的决策。

但如果算力提高到了1500Tops呢？可以实现20-30Hz的VLA响应，这个响应速度就好很多了，基本达到端到端的速度了。

在未来真正掌握主动的将是那些能率先在更高算力下降低VLA延迟的车企，它们将拥有更完整的智能驾驶解决方案和更强大的用户吸引力。

端到端+VLA多段式融合和一段式VLA，基本可以比作两个不太聪明的人一起配合开车，共通决策；和一个大脑智商高，足够的聪明人一个人开车。

也不知道有多少人看不懂，其实对于大多数消费者不用关心这些，以实际体验为准就好。

众力资讯网

昨天看了个视频，某个媒体关于几个品牌的智驾感受，最后的他们的观点和我的体验基本一

热门分类