最近刷到小米汽车和清华大学联合挂到arXiv的新作DVGT-2，看完觉得挺有意思

最近刷到小米汽车和清华大学联合挂到arXiv的新作DVGT-2，看完觉得挺有意思，值得拿出来唠唠。

现在自动驾驶圈什么最火？肯定是大模型，VLA（Vision-Language-Action）范式一出来，大家都在拼谁能把LLM更好地接到车上去——让大模型用自然语言描述场景，然后输出决策。说白了就是，让AI像人一样，"说"出这里有什么，然后决定该怎么走。但小米这篇论文，直接给了个相反的答案：我们不需要语言，我们要几何。为什么要几何？因为车真的长在3D世界里作者的核心观点非常直白：车辆行驶在物理世界，安全决策需要的是精确的空间信息，而不是模糊的语言描述。

你告诉模型"前面有辆车"，和模型自己重建出"这辆车长5米，宽2米，距离我15.3米，位置在x,y,z坐标某某点"，哪个更有用？肯定是后者啊。语言是给人看的，对于机器来说，直接的稠密3D几何信息，才是最全面、最准确的输入。这就是他们提出的新范式——VGA（Vision-Geometry-Action）：从图像输入，直接重建出整个场景像素级的3D点云，然后基于这个完整几何结构直接输出规划轨迹。没有稀疏检测，没有语义分割，没有语言描述，就是干干货——把3D世界画出来，然后走路。这个思路其实挺反主流的。现在大家都在往大模型、语义、语言挤，小米却回头啃几何重建这块硬骨头，勇气可嘉。

最大的问题解决了：从前慢，现在快说起来，几何重建这条路不是没人走过。之前的DVGT就做了这件事，但为什么没能用起来？因为老方法有个致命问题：太慢了，而且根本没法在线跑。传统的全局重建，要把所有帧都堆在一起做批量处理，算两两关系，复杂度是O(T²)，跑10帧就是100次计算，跑100帧就是一万次，车都开了一公里了，模型还没算完。就算改成流式，比如之前的StreamVGGT，也要保留全部历史特征，复杂度O(T)，跑个百八十帧显存就爆了，根本不可能支持长距离连续行驶。DVGT-2最核心的贡献，就是把这个问题给搞定了——滑动窗口流式推理。

简单说：只保留最近W帧的特征缓存，恒定大小，不会越长越大每来一新帧，只算新帧和窗口内历史帧的关系，扔掉最早一帧，复杂度永远是O(W)不用全局坐标系，每帧只重建当前帧坐标系下的局部几何，然后预测相对于上一帧的位姿，累积起来就是全局地图用相对位置编码，旧缓存不用重新计算，可以直接复用这套操作下来，效果立竿见影：单帧推理只需要0.27秒，一千多帧连续跑下来显存稳定不爆。对比一下，之前的方法跑个三十多帧就OOM（显存不足）了，现在能一路开到天荒地老，这才是能实装上车的东西。成绩真不错，干翻了不少SOTA说一千道一万，成绩说话。论文里放了一堆数据，我挑关键的说：几何重建：在OpenScene、nuScenes、Waymo、DDAD四个数据集上，绝对相对误差做到了0.040~0.093，δ

万益资讯网

最近刷到小米汽车和清华大学联合挂到arXiv的新作DVGT-2，看完觉得挺有意思

热门分类