06. AI Agent 与 Harness:Harness 是终局还是中间态?
mingzaily / 2026-04-01 · 协作:Codex、Claude
系列文章 · AI Agent 与 Harness
- 01. AI Agent 与 Harness:概念梳理
- 02. AI Agent 与 Harness:从 Prompt 到 Harness
- 03. AI Agent 与 Harness:V2 Harness 的验证设计
- 04. AI Agent 与 Harness:Repo Instructions、Skills 与团队工作流
- 05. AI Agent 与 Harness:Agent Harness、Graph 与退款 Agent
- 06. AI Agent 与 Harness:Harness 是终局还是中间态?
- 番外. AI Agent 与 Harness:Anthropic 和 LangChain 的 Harness Engineering
引言
Anthropic 和 Codex 的分歧,最近算是公开了。
同样都在做 coding agent,但对 harness 的判断,两边已经走出了明显不同的方向。一边是 Anthropic 的工程博客,系统展示了他们怎么把 harness 做得更强、更厚。另一边是 Codex 开源负责人 Michael Bolin 在一场访谈里给出的信号——几乎是反着来的。一个在继续加厚,一个在说别做那么厚。
这把一个本来没什么争议的问题顶到了台面上:harness 到底是终局,还是只是中间态?
Anthropic 在做什么
为了让 Claude Code 能稳定跑完长任务、构建完整应用,Anthropic 往 harness 里加了不少重的结构:
planner:把一句话需求展开成完整规格generator:负责真正去实现evaluator:模拟真实用户去跑页面、接口、数据库状态context reset:上下文快脏掉的时候直接清空,重新起一个新 agent,通过结构化交接文件把状态接过去
这套路线的核心判断是:模型本身还不够稳,所以得靠更强的外部编排来兜住长任务里的跑偏风险。复杂任务之所以能落地,靠的不是单次生成能力,而是整套控制结构够不够强。
说白了就是:模型做事,harness 保证别失控。
Codex 在说什么
Michael Bolin 在访谈里给出的方向几乎是反过来的。他说他们理想中的 harness 应该尽可能小、尽可能轻。
不是说 harness 不重要,而是:不要把太多决策硬编码进外部框架,不要疯狂堆专用工具,不要让模型每走一步都被人类写好的规则牵着走。
Codex 的思路更像是给模型一个真实的运行环境——终端、沙盒、必要的上下文连接能力——但探索路径、调用方式、执行策略,尽量让模型自己决定。
打个比方:脚手架可以有,但别把它做成一栋楼。因为模型早晚会涨到能自己处理更多东西。
两边真正的分歧在哪
表面看是 harness 该做厚还是做薄,但其实两边都没有否认 harness 的价值。他们真正分歧的,是对模型能力曲线的判断不一样。
- Anthropic 在回答:模型还不够稳的时候,怎样让复杂任务真的跑起来
- Codex 在回答:模型越来越强之后,哪些外部结构还值得保留
这不是技术细节的分歧,而是两个不同时间假设下的工程选择。
如果模型的大幅提升还很远,Anthropic 那条路就是现阶段最务实的选择。如果模型跃迁来得很快,Codex 那条路是在提醒你:别把过渡期的脚手架做成未来的长期负担。
底线
Bolin 也没有说 harness 会彻底消失。他保留了一个底线:环境和安全不退场。
也就是说,哪怕在最做薄的路线里,也不是完全没有 harness。它只是会从"流程控制层"慢慢收缩成"运行环境层"。sandbox、memory、connector、少量但足够强的工具入口——这些在最激进的做薄版本里依然存在。
两条路最后汇聚的地方,不是"要不要 harness",而是"harness 最终该管什么"。
这个问题为什么值得认真看
因为它背后决定的是 coding agent 的产品形态。
如果 Anthropic 那条路是对的,未来的核心竞争力就越来越像系统工程:谁的 planner 更强,谁的 evaluator 更稳,谁的 handoff 更完整,谁的流程控制更严密。最后拼的是整个 agent 框架本身——也就是说,harness 会成为真正的竞争壁垒。
如果 Codex 那条路是对的,那现在很多复杂的外部编排,本质上都只是过渡期补丁。随着模型的推理、记忆、工具使用和长期执行能力继续变强,重型框架里的大部分都会被模型自己内化掉。最后留下来的不是厚厚的编排系统,而是一个相对轻量的运行环境。
这让你看 agent 产品的方式会变:不只问这个产品用了多少工具、接了多少 agent 在协作,而是要问——这些结构到底是长期护城河,还是只是在替今天的模型补短板?如果是后者,做得越精密,未来的包袱就越重。
这场争论现在没有答案。两边都在理性地押注一件没人知道结果的事,而这个问题本身就值得记在脑子里:harness 当然重要,但它最终会不会成为主角,还没有定论。
延伸阅读
- 01. AI Agent 与 Harness:概念梳理
- 02. AI Agent 与 Harness:从 Prompt 到 Harness
- 番外. AI Agent 与 Harness:Anthropic 和 LangChain 的 Harness Engineering