[LG]《Hierarchical Planning with Latent World Models》W Zhang, B Terver, A Zholus, S Chitnis… [FAIR at Meta] (2026)
在具身控制领域,用学习到的世界模型做长时序规划是一个悬而未决的难题。过去的方法受困于预测误差随时间步骤累积,以及搜索空间随规划视野指数爆炸,本质原因是所有决策都被压缩在同一时间粒度上强行推进。
本文的核心洞见是:把不同时间分辨率的世界模型放入同一个潜空间,将"高层预测的中间状态"直接当作"低层规划的子目标"。由此,高层用压缩后的宏动作搜索通往目标的路径,低层只负责精细执行下一段短程动作——两个层级通过潜态匹配直接耦合,无需技能学习或奖励信号,这一关键操作使非贪心任务得以在零样本条件下被解开。
这项工作真正留下的遗产是:证明了层级结构可以作为推理时的即插即用模块,而非必须在训练时烧入策略。它为后来者打开的新门是:如何在无标注、无奖励的大规模离线数据上预训练通用世界模型,再通过层级规划扩展其能力边界。但尚未跨过的门槛是:高低层之间目前只有单向的顶向下传递,缺乏反馈与协同校正,导致任务视野进一步增大时性能仍会显著下降。
arxiv.org/abs/2604.03208 机器学习 人工智能 论文 AI创造营








