小米汽车小米汽车发布世界模型新框架 Xiaomi Auto World Model 世界模型正式发布,特点事实现三维重建与视频生成模块的深度耦合,以 JointWM 架构打破行业技术瓶颈,在 Waymo、nuScenes 等主流基准测试中斩获多项最佳性能(SOTA),推动辅助驾驶从 “场景感知” 向 “认知推演、场景进化” 高阶跃迁。
传统自动驾驶仿真技术中,重建与生成长期割裂:重建模块可精准还原场景却无预测能力,生成模块能预判未来但长时序易失真漂移。小米创新的 JointWM 架构以 “重建锚定几何、生成填补想象”*为核心范式,用三维几何结构作为物理骨架锚定场景,再由生成模块补全视觉细节、预测未观测区域,实现两大模块闭环协同、互相约束。
核心模块技术突破WorldRec 重建模块:摒弃传统逐像素范式,采用稀疏三维查询点表征场景,增量融合为跨视角 4D Gaussian 空间骨架,10 秒即可完成 10 秒视频的快速重建,兼顾效率与几何精度。WorldGen 生成模块:依托重建提供的几何先验,仅负责生成骨架内合理光影与纹理;边界外内容引入ODE 蒸馏技术,仅需 4 步去噪,在 H20 GPU 上实现单视角 0.19 秒、三视角 0.46 秒极速生成,支持最长 1 分钟连续视频,可模拟极端天气、异物闯入等长尾场景。性能与落地成果性能数据:Waymo 重建精度达28.48 PSNR;nuScenes 零样本泛化领先;生成效率较自回归基线 Epona 快5.6 倍,时空连贯度位居同类算法前列。三大落地场景:已交付超10 万段高质量合成数据用于感知训练;构建高逼真闭环仿真环境复现长尾路况;上线辅助驾驶学堂,以生成式视频指导用户复杂路况操作。