元戎 CEO 周光在前天的 VLA 发布会上如此解释 VLA:
- VLA 可以称为基于 GPT 的端到端模型,这与传统的 CNN 端到端模型有本质区别。
- 如果 CNN 能做好推理,那 ChatGPT 就可能不需要出现了。VLA 模型正是基于 GPT-Transformer 的神经网络架构,具备更强的语义和逻辑推理能力。
- VLA 和第一代端到端最根本的区别是模型架构变了——从 CNN 转向 GPT
————
哈?所以说了半天,我们在今年 VLA 量产之前体验到的所有端到端,都是基于 CNN 的?
可是看各种传播口起码说了两三年基于 Transformer 的 BEV...是说 CNN 和 Transformer 的缝合怪?[柯基][柯基]