卓驭（原大疆车载） CEO 沈劭杰谈 VLA 与世界模型。重点看最后一段。沈劭杰

卓驭（原大疆车载） CEO 沈劭杰谈 VLA 与世界模型。重点看最后一段。

沈劭杰：首先，先说结论，我们（卓驭）目前 VLA 和强化学习都有在跑，

世界模型完全是从 video to trajectory （视频到轨迹）级别的世界模型的确我们现在还没有，这个太难了。但是在轨迹空间的世界模型我们是有的。

技术路线的问题，从发展历程来看，不管是什么技术路线，有图无图、大算力还是低算力、激光还是视觉，再到后面的一段式端到端还是规则，再到 VLA 还是世界模型。你可以看到，任何一个时刻都有争论点，到最后结论都不是两个极端，而是两个极端的中间状态。

VLA 你可以理解为是一个低频、延迟稍微有点大，但具备显式场景理解能力的网络。无论你是紧耦合式的 VLA 真正意义的 VLA，还是 plug-in 形式，只是输出理解，后面决策规划还是接端到端的网络。无论你是哪种形式，都能够极大提升整个智驾系统的 “大脑”能力。

世界模型，如果真的是video in， trajectory out （视频进、轨迹出）的话，但它是个 word model，不单单只是能够输出轨迹，它同时能够搞明白这世界里面的物理发生了什么状态，那当然是好啊，它就是好，唯一的问题是做不做得出来而已。

如果非要我评论的话，（VLA 与世界模型）区别，一个是近期就能做出改变的东西；一个是在于押宝更远期一点，从根本上解决问题的思路的区别。但是脱离资源谈路线没什么意思。

大v聊车智能驾驶

玩酷网