万益资讯网

[LG]《MARL-GPT: Foundation Model for Mult

[LG]《MARL-GPT: Foundation Model for Multi-Agent Reinforcement Learning》M Nesterova, M Kolosov, A Andreychuk, E Cherepanov… [MIRAI & AXXX] (2026)

在多智能体强化学习领域,每换一个任务就必须重新训练一个专属模型——因为不同环境的观察空间、动作空间、奖励结构彼此不兼容,没有一种编码方式能让单一模型同时"听懂"星际争霸、足球比赛和机器人路径规划。

本文的核心洞见是:把各环境的异构观察统一看作"带有身份标签的数值序列"。由此,一套四维位置编码(属性类型 × 智能体编号 × 阵营 × 时间步)将任意环境的向量化观察映射到共享嵌入空间,单一 GPT 模型无需修改架构即可跨环境决策。

这项工作真正留下的遗产是:用"专家轨迹+离线 RL"的路径,验证了多任务 MARL 基础模型在工程上是可行的,而非仅停留于概念。它为后来者打开的新门是如何在异构多智能体任务间构建共享表征。但尚未跨过的门槛是:观察编码仍依赖人工标注的位置索引,无法处理视觉输入,也无法零样本迁移到从未见过的环境——这正是通往真正"多智能体 GPT"的最后一道坎。

arxiv.org/abs/2604.05943

机器学习 人工智能 论文 AI创造营