9B 的模型，把比它大好几倍的模型干下去了。Ai2 和华盛顿大学那拨做 OLMo

9B 的模型，把比它大好几倍的模型干下去了。

Ai2 和华盛顿大学那拨做 OLMo / Tülu 的人，放出一篇新论文叫 Tmax，自称是目前最强的开源「终端 agent」RL 训练配方。

成绩：一个 9B 模型在 Terminal-Bench 2.0 上拿到 27%，超过此前一批参数大得多的模型。配方本身简单到反常——纯用结果做奖励（outcome-only），不上花哨的过程监督。

最有意思的是，胜负手根本不在模型大小，也不在 RL 算法，而在「怎么造训练数据」。

他们用一套 taxonomy 批量造终端环境：难度控制 + 人设（personas）+ verifier 多样化，廉价生成海量可训练任务，攒出的终端 agent 数据集比之前公开过的最大那个还大 2.5 倍。

这说明一件事：终端 agent 的能力越来越是「环境喂出来的」，不是「参数堆出来的」。谁能便宜地造出大量可验证的任务，谁就能训出强 agent。

而且数据、模型、代码全开源了。

开源追前沿，这次追得很近。

万益资讯网