03. AI Agent 与 Harness：V2 Harness 的验证设计

Sun, 29 Mar 2026 12:00:00 +0800

引言

前面两篇把概念和演进背景铺开了，但真正落到工程里，最难的一层往往不是”怎么让 agent 开始做事”，而是”怎么确认它真的做成了”。

很多团队已经有 prompt、skill、AGENTS.md、MCP 和常用工具，agent 也确实能开始干活。
问题通常出在交付阶段：测试会漏跑，状态会漏校验，模型会以为自己完成了，系统却没有真的过关。

所以这一篇只想回答一个非常落地的问题：

验证阶段的 harness，到底应该怎么设计？

尤其是下面这个追问：

如果你还没看前面两篇，可以先从《01. AI Agent 与 Harness：概念梳理》和《02. AI Agent 与 Harness：从 Prompt 到 Harness》开始，再回来看这一篇会更顺。

很多团队其实已经有了 V1 级别的 agent setup，但还没有真正进入 V2 agent harness。

比如开发团队里，大家已经开始做这些事：

这些都很有价值，而且已经远远不只是“写好提示词”了。
但它们更多解决的是：

这更多还是：