最近刷到小米汽车和清华大学联合挂到arXiv的新作DVGT-2,看完觉得挺有意思,值得拿出来唠唠。
现在自动驾驶圈什么最火?肯定是大模型,VLA(Vision-Language-Action)范式一出来,大家都在拼谁能把LLM更好地接到车上去——让大模型用自然语言描述场景,然后输出决策。说白了就是,让AI像人一样,"说"出这里有什么,然后决定该怎么走。但小米这篇论文,直接给了个相反的答案:我们不需要语言,我们要几何。为什么要几何?因为车真的长在3D世界里作者的核心观点非常直白:车辆行驶在物理世界,安全决策需要的是精确的空间信息,而不是模糊的语言描述。
你告诉模型"前面有辆车",和模型自己重建出"这辆车长5米,宽2米,距离我15.3米,位置在x,y,z坐标某某点",哪个更有用?肯定是后者啊。语言是给人看的,对于机器来说,直接的稠密3D几何信息,才是最全面、最准确的输入。这就是他们提出的新范式——VGA(Vision-Geometry-Action):从图像输入,直接重建出整个场景像素级的3D点云,然后基于这个完整几何结构直接输出规划轨迹。没有稀疏检测,没有语义分割,没有语言描述,就是干干货——把3D世界画出来,然后走路。这个思路其实挺反主流的。现在大家都在往大模型、语义、语言挤,小米却回头啃几何重建这块硬骨头,勇气可嘉。
最大的问题解决了:从前慢,现在快说起来,几何重建这条路不是没人走过。之前的DVGT就做了这件事,但为什么没能用起来?因为老方法有个致命问题:太慢了,而且根本没法在线跑。传统的全局重建,要把所有帧都堆在一起做批量处理,算两两关系,复杂度是O(T²),跑10帧就是100次计算,跑100帧就是一万次,车都开了一公里了,模型还没算完。就算改成流式,比如之前的StreamVGGT,也要保留全部历史特征,复杂度O(T),跑个百八十帧显存就爆了,根本不可能支持长距离连续行驶。DVGT-2最核心的贡献,就是把这个问题给搞定了——滑动窗口流式推理。
简单说:只保留最近W帧的特征缓存,恒定大小,不会越长越大每来一新帧,只算新帧和窗口内历史帧的关系,扔掉最早一帧,复杂度永远是O(W)不用全局坐标系,每帧只重建当前帧坐标系下的局部几何,然后预测相对于上一帧的位姿,累积起来就是全局地图用相对位置编码,旧缓存不用重新计算,可以直接复用这套操作下来,效果立竿见影:单帧推理只需要0.27秒,一千多帧连续跑下来显存稳定不爆。对比一下,之前的方法跑个三十多帧就OOM(显存不足)了,现在能一路开到天荒地老,这才是能实装上车的东西。成绩真不错,干翻了不少SOTA说一千道一万,成绩说话。论文里放了一堆数据,我挑关键的说:几何重建:在OpenScene、nuScenes、Waymo、DDAD四个数据集上,绝对相对误差做到了0.040~0.093,δ