元戎启行研发VLA的故事:一开始产品经理都被VLA的文字理解和OCR能力迷住了。
元戎启行研发VLA的故事:一开始产品经理都被VLA的文字理解和OCR能力迷住了。一次惊险的测试,让元戎把“防御性驾驶”作为VLA模型的核心进化方向。起初是云端推理传回车端,但时延太大。例如车速60km/h,假设时延需要2s,在拿到云端结果时,车已经向前跑了33米。为了在车端部署,压缩了词表,对模型做了剪枝和加速,对VLA模型做了大量的算子优化、显存优化、硬件新特性适配等,最终使得VLA在车端顺畅地跑起来。通过迭代大模型自动给数据打标签,解决了数据规模标注难题,目前元戎启行也达到了千万级Clips的数据规模。元戎启行的VLA正在深度学习"如何在不完美的人类驾驶环境中做出最安全的决策"--------------------------------------------所以,元戎的VLA从之前的解决场景的长尾难题,转向了更关注安全的驾驶决策。在车端无法部署更大模型的情况下,这种方式也是一种务实的选择。