玩酷网

现在用800W或者更高像素的AD摄像头,如果用LLM去做 其实信息损失的真不少,

现在用800W或者更高像素的AD摄像头,如果用LLM去做

其实信息损失的真不少,我没记错的常规的区域划分也就 30*20 个区域

原因是过密的区域切割 会导致Token数量太多,

所以才提出来要对重要区域进行编码,而不是全局编码。

本身图像视频流里面也不是所有区域的像素都是具有意义的

这个思路已经在多家尝试落地了

在车端算力存在瓶颈下,提升能力上限重要方法

只关注感兴趣的,重要的特征