玩酷网

卓驭(原大疆车载) CEO 沈劭杰谈 VLA 与世界模型。重点看最后一段。沈劭杰

卓驭(原大疆车载) CEO 沈劭杰谈 VLA 与世界模型。重点看最后一段。

沈劭杰:首先,先说结论,我们(卓驭)目前 VLA 和强化学习都有在跑,

世界模型完全是从 video to trajectory (视频到轨迹)级别的世界模型的确我们现在还没有,这个太难了。但是在轨迹空间的世界模型我们是有的。

技术路线的问题,从发展历程来看,不管是什么技术路线,有图无图、大算力还是低算力、激光还是视觉,再到后面的一段式端到端还是规则,再到 VLA 还是世界模型。你可以看到,任何一个时刻都有争论点,到最后结论都不是两个极端,而是两个极端的中间状态。

VLA 你可以理解为是一个低频、延迟稍微有点大,但具备显式场景理解能力的网络。无论你是紧耦合式的 VLA 真正意义的 VLA,还是 plug-in 形式,只是输出理解,后面决策规划还是接端到端的网络。无论你是哪种形式,都能够极大提升整个智驾系统的 “大脑”能力。

世界模型,如果真的是video in, trajectory out (视频进、轨迹出)的话,但它是个 word model,不单单只是能够输出轨迹, 它同时能够搞明白这世界里面的物理发生了什么状态,那当然是好啊,它就是好,唯一的问题是做不做得出来而已。

如果非要我评论的话,(VLA 与世界模型)区别,一个是近期就能做出改变的东西;一个是在于押宝更远期一点,从根本上解决问题的思路的区别。但是脱离资源谈路线没什么意思。

大v聊车智能驾驶