9B 的模型,把比它大好几倍的模型干下去了。
Ai2 和华盛顿大学那拨做 OLMo / Tülu 的人,放出一篇新论文叫 Tmax,自称是目前最强的开源「终端 agent」RL 训练配方。
成绩:一个 9B 模型在 Terminal-Bench 2.0 上拿到 27%,超过此前一批参数大得多的模型。配方本身简单到反常——纯用结果做奖励(outcome-only),不上花哨的过程监督。
最有意思的是,胜负手根本不在模型大小,也不在 RL 算法,而在「怎么造训练数据」。
他们用一套 taxonomy 批量造终端环境:难度控制 + 人设(personas)+ verifier 多样化,廉价生成海量可训练任务,攒出的终端 agent 数据集比之前公开过的最大那个还大 2.5 倍。
这说明一件事:终端 agent 的能力越来越是「环境喂出来的」,不是「参数堆出来的」。谁能便宜地造出大量可验证的任务,谁就能训出强 agent。
而且数据、模型、代码全开源了。
开源追前沿,这次追得很近。
