玩酷网

结合朗博和詹锟的 QA,理想从端到端 + VLM——这里的端到端可以理解为没有语

结合朗博和詹锟的 QA,理想从端到端 + VLM——这里的端到端可以理解为没有语言模块的视觉动作模型,也就是 VA——从 VA + VLM 到 VLA,这里是有一些冗余模块的兼并重组掉的。

VLA 更简洁的架构富余出来的算力和内存,让理想的纯视觉前向感知距离增加了 30%,从 150 米增加到了 200 米。 ​​​