斯坦福 Meta-Harness,一种端到端优化“harness”的方法
它是一个外层循环(outer-loop)系统,可以自动搜索和优化 LLM 应用的 harness 代码(prompt + 上下文管理逻辑)
核心思想很简单:- 使用 coding agent 作为提议者- 赋予它文件系统访问权限,以获取所有历史经验(这个目录会变得非常大)
它可以看到所有先前候选方案的源代码、执行轨迹和评分。这样可以进行选择性诊断(selective diagnosis),而不是依赖压缩后的反馈。
简单说,这是一个自动优化 LLM 系统提示词和上下文管理策略的框架,用更少的 token 达到了更好的效果。
主要成果:- 相比 ACE(Agentic Context Engineering)提升 7.7 分,同时使用的 context token 减少 4 倍- 在 IMO 级别数学问题上,在 5 个 held-out 模型上平均提升 4.7 分- 在 TerminalBench-2 排行榜上排名第1(Haiku 4.5 agents 类别)
项目:yoonholee.com/meta-harness论文:yoonholee.com/meta-harness/paper.pdf



