[氛围感R]Opus 4.8:更诚实、更可靠的增量升级
Claude Opus 4.8 距上一代 Opus 4.7 发布仅相隔 41 天,升级周期明显快于往常。该模型维持原有定价:每百万输入 token 5 美元,每百万输出 token 25 美元。
此次升级的核心聚焦于行为改进:
更高的诚实度:Opus 4.8 对自身不确定性更加坦诚,更可能主动标注问题,而非做出无根据的断言。据 Anthropic 评估,其"错误对齐行为"(如欺骗或配合滥用)的发生率显著低于 Opus 4.7,已接近 Mythos 模型的水平。
更强的代码审查能力:相比前代,Opus 4.8 对其生成的代码中存在的缺陷"视而不见"的概率降低了约四倍。
长程智能体编码改进:在长时间自主运行、长上下文处理、压缩恢复等方面表现更稳定 [7]。
推理强度可控:用户现可手动调节模型的"努力程度"(effort level),在高强度模式下进行更深入思考,在低强度模式下获得更快响应 。
[氛围感R]Dynamic Workflows:协调数百个子智能体
与 Opus 4.8 同步推出的还有 Dynamic Workflows(动态工作流)功能,目前处于研究预览阶段。该系统允许 Opus 在单次会话中协调数十至数百个并行子智能体,处理极其复杂的任务。
Anthropic 表示,借助 Opus 4.8,Claude Code 现在能够"执行代码库级别的迁移工作,横跨数十万行代码,从启动到合并,以现有测试套件为标准"完成全流程。该功能专为大规模工程任务设计,可规划任务、管理并行子智能体并验证输出结果。
此外,API 层面也有调整:Messages API 现支持在用户回合后将 `role: "system"` 消息追加到消息数组中,便于在长对话中更新指令,同时保留前期对话的提示缓存命中,降低智能体循环中的输入成本 。
[氛围感R]Mythos 模型:从网络安全.preview 到全面开放
与此同时,Anthropic 宣布将在未来几周内把 Mythos 级别模型带给所有客户。这一时间表比此前预期大幅提前。

