生产级 Agent Harness 的 12 个核心组件
这套架构综合了 Anthropic、OpenAI、LangChain 的最佳实践,核心是构建一个可靠、可扩展、可控的智能体系统。
1. 编排循环 (The Orchestration Loop)
系统的“心脏”,即 TAO(思考-行动-观察)循环。
- 核心流程:整合提示词与状态 → 调用大模型思考 → 执行行动 → 观察结果并更新状态,循环往复直至任务完成。
- 关键:处理各种状态和逻辑,被 Anthropic 称为“索循环”。
2. 工具 (Tools)
智能体的“双手”,让模型与外部世界交互。
- 流程:定义与注册 → 格式校验 → 沙箱执行 → 结果捕获与格式化。
- 例子:Claude Code 的文件操作、代码分析;OpenAI 的函数工具;MCP 服务器工具。
3. 记忆 (Memory)
让智能体在不同时间尺度上运作。
- 短期记忆:单次会话的对话历史。
- 长期记忆:跨会话持久存在的信息。
- 实现:Anthropic 的 memory.md 文件、LangGraph 的 JSON 存储、OpenAI 的 Redis 存储。
- 原则:记忆是“提示”,行动前必须验证。
4. 上下文管理 (Context Management)
解决上下文窗口限制问题,避免信息丢失或膨胀。
- 关键技术:压缩、观察掩码、即时检索、子智能体摘要。
- 目标:找到能最大化达成目标概率、信号最强的最小 Token 集合。
5. 提示词构建 (Prompt Construction)
决定每一步模型“能看到什么”,采用层级化结构。
- 层级:系统提示词 > 工具定义 > 记忆文件 > 对话历史 > 用户消息。
- 目标:以优先级和层级化的方式组织信息,引导模型行为。
6. 输出解析 (Output Parsing)
将模型输出转化为可执行的结构。
- 逻辑:解析输出 → 判断是否调用工具 → 是则执行工具并继续循环,否则直接输出答案。
- 实现:用 Pydantic 模型进行格式约束与校验。
7. 状态管理 (State Management)
保存、恢复与调试系统状态。
- 能力:可恢复、可回滚、可审计。
- 实现:LangGraph 的 Checkpoint、OpenAI 的会话 ID、Claude Code 的 Git 提交。
8. 错误处理 (Error Handling)
让系统优雅降级,最大化任务完成率。
- 策略:重试与回退、模型修正、用户干预、意外错误上报。
- 目标:从单次失败率10%提升到成功率90.4%。
9. 护栏与安全 (Guardrails & Safety)
在多个层级确保安全合规。
- 输入护栏:首次运行时检查输入。
- 工具护栏:每次调用工具前检查。
- 输出护栏:检查最终结果,触发红线则立即停止。
- 原则:将“模型决定”与“框架决定”分离,极限执行。
10. 验证循环 (Verification Loops)
区分玩具演示与生产级智能体的关键。
- 方式:规则反馈、视觉校验、LLM-as-Judge。
- 效果:让模型验证自己的工作,产出质量提升2-3倍。
11. 子智能体编排 (Subagent Orchestration)
让多个智能体协同完成复杂任务。
- 模式:克隆、队友、工作树;作为专家、移交控制权。
- 目标:将复杂任务拆解,并行处理。
12. 可观测性与评估 (Observability & Evaluation)
只有“看得见”,才能优化。
- 方式:结构化日志、追踪与链路、指标告警、评估与回放。
- 目标:持续收集数据,优化成功率、延迟、成本、错误率。
这12个组件协同工作,构成了一个从单次循环到长期任务、从模型交互到安全治理、从执行到优化的完整闭环,是生产级 Agent 从 Demo 走向可靠产品的基石。
开源Agent AI系统架构 Adam算法 isp算法 DSA架构 Rubin架构 NPU架构
