Workflow on 星澜

05. AI Agent 与 Harness：Agent Harness、Graph 与退款 Agent

Sun, 29 Mar 2026 14:00:00 +0800

引言

上一篇讲的是第一类场景：用现成 agent 产品时，团队怎么把自己的 harness 搭好。

这篇讲第二类：如果是自己开发退款 agent、审批 agent、客服分诊 agent，agent harness 到底长什么样？

这是《01. AI Agent 与 Harness：概念梳理》里提到的第二类场景——不是在现成 agent 产品外面加一层团队规范，而是自己从头搭一套业务 agent 系统。

对退款、审批、客服分诊、工单流转这类系统来说，第一步通常不是先打磨 prompt，而是先把流程图画出来。图一旦清楚，第一版系统骨架往往也就跟着出来了。

为什么先画流程图，再谈 agent

这当然不是说：

流程图 = 代码

而是说，对于退款、审批、分诊、风控这类业务 agent，你一旦能把下面几件事画清楚，第一版系统骨架其实就已经出来了：

有哪些节点
节点之间怎么流转
哪些节点必须确定性执行
哪些节点可以交给模型判断
哪些地方要加人工接管
哪些地方要加验证和返工

很多团队一开始觉得自己是在“做 AI agent”，后来真正落地时会发现，第一步其实更像：

画流程图
画状态流转
画工具调用图
画失败回退路径

这些图一旦清楚了，agent harness 的大部分骨架也就跟着清楚了。

能画出流程图，不代表已经把 agent 写完了；但通常已经走到了“能开始写 agent harness”的阶段。

Graph 在表达什么

这里说的 graph，不要只把它理解成某个具体框架的对象。
它更广义地指：

节点
边
状态
路由规则
重试和返工路径

一个业务 agent 的 graph，通常至少会包含几类节点：

LLM 节点
- 负责意图理解、信息提取、回复生成、某些开放判断
工具节点
- 查订单、查政策、调退款接口、写工单、发通知
规则节点
- 权限判断、风控判断、政策判断
验证节点
- 检查动作结果是否真的生效
人工节点
- 升级审批、转人工处理、人工兜底

这时 graph 真正表达的，不只是“业务流程长什么样”，还包括：

03. AI Agent 与 Harness：V2 Harness 的验证设计

Sun, 29 Mar 2026 12:00:00 +0800

引言

前面两篇把概念和演进背景铺开了，但真正落到工程里，最难的一层往往不是”怎么让 agent 开始做事”，而是”怎么确认它真的做成了”。

很多团队已经有 prompt、skill、AGENTS.md、MCP 和常用工具，agent 也确实能开始干活。
问题通常出在交付阶段：测试会漏跑，状态会漏校验，模型会以为自己完成了，系统却没有真的过关。

所以这一篇只想回答一个非常落地的问题：

验证阶段的 harness，到底应该怎么设计？

尤其是下面这个追问：

coding agent 里，我们已经会在 AGENTS.md、CLAUDE.md、skill 里要求“写完要补测试并运行”，但模型还是会偶尔忘记
那业务 agent 的验证到底该怎么做
动作后验证到底是什么
它在 agent harness 里怎么落，以及在仓库规则、验证命令和 CI 流程里怎么体现

如果你还没看前面两篇，可以先从《01. AI Agent 与 Harness：概念梳理》和《02. AI Agent 与 Harness：从 Prompt 到 Harness》开始，再回来看这一篇会更顺。

很多团队其实已经有了 V1 级别的 agent setup，但还没有真正进入 V2 agent harness。

比如开发团队里，大家已经开始做这些事：

指定统一使用 Codex 或 Claude Code
写 AGENTS.md / CLAUDE.md
把代码规范、框架规范、提交流程整理成 skill
推荐安装 dbhub MCP、GitHub MCP、fetch MCP
固定常用命令、目录结构和交付格式

这些都很有价值，而且已经远远不只是“写好提示词”了。
但它们更多解决的是：

怎么给 agent 足够的上下文
怎么统一团队使用方式
怎么让 agent 更容易做事

这更多还是：

02. AI Agent 与 Harness：从 Prompt 到 Harness

Sun, 29 Mar 2026 10:00:00 +0800

引言

这几年看 AI 相关讨论，一个很明显的变化是：大家聊的话题一直在往外扩。

最开始聊的是 prompt，后来开始聊 context、tool calling、workflow，再到这两年越来越常见的 harness engineering。

表面上看，好像只是名词越来越多。但如果把这些讨论放回工程语境里，它们其实指向的是同一个变化：任务越来越像真实系统问题，单次提示词已经不够解释 agent 的表现了。

这篇文章想回答的，就是这个问题：

为什么今天大家会从 prompt engineering，一路谈到 context engineering，最后谈到 harness engineering？

如果你更想继续往后读：

验证落地篇：03. AI Agent 与 Harness：V2 Harness 的验证设计
工程落地篇：05. AI Agent 与 Harness：Agent Harness、Graph 与退款 Agent
团队落地篇：04. AI Agent 与 Harness：Repo Instructions、Skills 与团队工作流
外部文章拆解：番外. AI Agent 与 Harness：Anthropic 和 LangChain 的 Harness Engineering

harness engineering 之所以变成热词，不是因为大家突然发明了一个新名词，而是因为任务复杂度真的变了。

当任务还只是一次性问答时，prompt 就已经很有用
当任务开始跨多轮、多工具、多状态、多系统时，光靠 prompt 就不够了
一旦目标从“回答得像”变成“真的做完并且做对”，系统设计就自然会压过单次提示词技巧

AI 讨论的重心，正在从“怎么让模型更会说”，转向“怎么让系统更稳定地做完”。

为什么今天大家会频繁谈 harness

过去很多讨论会把注意力放在：

模型版本
提示词技巧
上下文长度
是否支持工具调用

这些当然都重要。
但一旦模型开始进入真实业务系统，大家很快就会撞上另一类问题：