小米汽车小米汽车发布世界模型新框架 Xiaomi Auto World Mode

小米汽车小米汽车发布世界模型新框架 Xiaomi Auto World Model 世界模型正式发布，特点事实现三维重建与视频生成模块的深度耦合，以 JointWM 架构打破行业技术瓶颈，在 Waymo、nuScenes 等主流基准测试中斩获多项最佳性能（SOTA），推动辅助驾驶从 “场景感知” 向 “认知推演、场景进化” 高阶跃迁。

传统自动驾驶仿真技术中，重建与生成长期割裂：重建模块可精准还原场景却无预测能力，生成模块能预判未来但长时序易失真漂移。小米创新的 JointWM 架构以 “重建锚定几何、生成填补想象”*为核心范式，用三维几何结构作为物理骨架锚定场景，再由生成模块补全视觉细节、预测未观测区域，实现两大模块闭环协同、互相约束。

核心模块技术突破WorldRec 重建模块：摒弃传统逐像素范式，采用稀疏三维查询点表征场景，增量融合为跨视角 4D Gaussian 空间骨架，10 秒即可完成 10 秒视频的快速重建，兼顾效率与几何精度。WorldGen 生成模块：依托重建提供的几何先验，仅负责生成骨架内合理光影与纹理；边界外内容引入ODE 蒸馏技术，仅需 4 步去噪，在 H20 GPU 上实现单视角 0.19 秒、三视角 0.46 秒极速生成，支持最长 1 分钟连续视频，可模拟极端天气、异物闯入等长尾场景。性能与落地成果性能数据：Waymo 重建精度达28.48 PSNR；nuScenes 零样本泛化领先；生成效率较自回归基线 Epona 快5.6 倍，时空连贯度位居同类算法前列。三大落地场景：已交付超10 万段高质量合成数据用于感知训练；构建高逼真闭环仿真环境复现长尾路况；上线辅助驾驶学堂，以生成式视频指导用户复杂路况操作。

万益资讯网

小米汽车小米汽车发布世界模型新框架 Xiaomi Auto World Mode

热门分类