02. AI Agent 与 Harness:从 Prompt 到 Harness
mingzaily / 2026-03-29 · 协作:Codex、Claude
系列文章 · AI Agent 与 Harness
- 01. AI Agent 与 Harness:概念梳理
- 02. AI Agent 与 Harness:从 Prompt 到 Harness
- 03. AI Agent 与 Harness:V2 Harness 的验证设计
- 04. AI Agent 与 Harness:Repo Instructions、Skills 与团队工作流
- 05. AI Agent 与 Harness:Agent Harness、Graph 与退款 Agent
- 06. AI Agent 与 Harness:Harness 是终局还是中间态?
- 番外. AI Agent 与 Harness:Anthropic 和 LangChain 的 Harness Engineering
引言
这几年看 AI 相关讨论,一个很明显的变化是:大家聊的话题一直在往外扩。
最开始聊的是 prompt,后来开始聊 context、tool calling、workflow,再到这两年越来越常见的 harness engineering。
表面上看,好像只是名词越来越多。 但如果把这些讨论放回工程语境里,它们其实指向的是同一个变化:任务越来越像真实系统问题,单次提示词已经不够解释 agent 的表现了。
这篇文章想回答的,就是这个问题:
为什么今天大家会从 prompt engineering,一路谈到 context engineering,最后谈到 harness engineering?
如果你更想继续往后读:
- 验证落地篇:03. AI Agent 与 Harness:V2 Harness 的验证设计
- 工程落地篇:05. AI Agent 与 Harness:Agent Harness、Graph 与退款 Agent
- 团队落地篇:04. AI Agent 与 Harness:Repo Instructions、Skills 与团队工作流
- 外部文章拆解:番外. AI Agent 与 Harness:Anthropic 和 LangChain 的 Harness Engineering
harness engineering 之所以变成热词,不是因为大家突然发明了一个新名词,而是因为任务复杂度真的变了。
- 当任务还只是一次性问答时,prompt 就已经很有用
- 当任务开始跨多轮、多工具、多状态、多系统时,光靠 prompt 就不够了
- 一旦目标从“回答得像”变成“真的做完并且做对”,系统设计就自然会压过单次提示词技巧
AI 讨论的重心,正在从“怎么让模型更会说”,转向“怎么让系统更稳定地做完”。
为什么今天大家会频繁谈 harness
过去很多讨论会把注意力放在:
- 模型版本
- 提示词技巧
- 上下文长度
- 是否支持工具调用
这些当然都重要。
但一旦模型开始进入真实业务系统,大家很快就会撞上另一类问题:
- 工具怎么组织
- 上下文怎么管理
- 状态怎么保存
- 失败怎么被发现
- 返工怎么被触发
- 长任务怎么防止熵增
这时你会发现,真正决定体验差距的,往往已经不是模型单点能力,而是模型外面那层运行环境和工程设计。
这也是为什么今天越来越多人开始谈:
- context engineering
- harness engineering
AI 是怎么一步步走到这里的
如果把这几年的 AI 使用方式压成一条线,大概可以这样看。
第一阶段:网页版对话
最开始大家接触 AI,往往就是网页聊天。
你输入一句话,它回一句话。
这个阶段最核心的能力是:
- 问答
- 写作
- 总结
- 翻译
- 灵感补全
那时候大家最在意的是:
这个模型聪不聪明,回答像不像人。
第二阶段:提示词工程
再往后,大家开始意识到:
同一个模型,提示词写得不一样,效果差别非常大。
于是开始出现:
- 角色设定
- 输出格式约束
- few-shot 示例
- 长 prompt 模板
这个阶段的关键词是:
怎么提问,模型才更听话。
第三阶段:API 和 Tool Calling
再下一步,模型不只是聊天,而是开始通过 API 接入业务系统。
这时大家发现:
- 模型可以不只“说”
- 它还可以“调用外部能力”
也就是从“纯回答”走向“可以行动”。
Tool calling、function calling、插件、MCP 这类能力,都是这一阶段慢慢变重要的。
第四阶段:Workflow-First
当模型开始进入业务系统后,工程上第一个自然选择通常不是直接做高自治、强 agentic 的系统,而是先做 workflow-first。
原因很现实:
- 规则更清晰
- 风险更可控
- 更适合接业务系统
- 更容易审计和追责
所以很多早期业务 AI,看起来很智能,本质上其实是:
工作流 + 模型节点
第五阶段:自主决策更多的 Agent 系统
接着人们开始想要更强的系统:
- 能自己拆任务
- 能自己决定下一步
- 能调用工具
- 能持续推进
这时大家追求的,已经不只是“流程里挂一个模型节点”,而是让系统在运行时承担更多规划和决策。
焦点也从“回答得好不好”变成“能不能真的把事做完”。
这里最好把两个词拆开:
agent是系统层概念,指一个围绕目标持续行动的执行体agentic是技术风格概念,指系统把多少规划、路由和工具选择交给运行时动态决定
所以这一步不是说系统会突然变成“完全没有流程骨架”的形态。
更常见的现实是:
- 它已经是一个 agent 产品
- 但底层实现仍然是
workflow-first + 局部 agentic 能力 - 只是随着底层系统变强,系统会把更多关键决策交给执行时动态产生
第六阶段:Harness Engineering
到了今天,大家越来越发现,真正拉开体验差距的,不只是模型本身,而是它外面那层运行环境和工程设计。
同一个模型,放在不同工具组合、不同 context 管理方式、不同验证闭环里,最后呈现出来的“智慧程度”真的会不一样。
于是讨论重心开始从:
- 模型能力
- prompt 技巧
慢慢转向:
- context engineering
- harness engineering
也就是:
不是让模型更聪明,而是让模型在真实任务里更稳定地把事做对。
为什么 Workflow-First 往往比自主度更高的系统更早落地
很多人一听到 agent,就会自动联想到一个几乎能自己包办一切的系统。
但真实业务里,这种想象通常会先被流程、权限、审计和风控拉回地面。
所以这里对比的重点,不是“workflow 算不算 agent”,而是:
workflow-first 和“把更多决策交给运行时动态处理”的系统,谁更容易先落地。
这里也不要把“更 agentic”理解成“完全没有流程图”。
一旦系统要落实到真实业务里,几乎总会有某种 graph、状态机或 orchestration 骨架。
区别通常在于:
- 图上的主要路径是不是预定义的
- 还是说模型会在执行中动态决定走哪条边、调什么工具、要不要返工
换句话说,graph 几乎总会有;真正变化的是图上有多少边是设计时固定的,又有多少边是运行时决定的。
原因并不神秘:
- 业务规则本来就比较固定
- 真正高风险的动作不适合完全开放决策
- 系统要对接现有权限、审批和审计链路
- 线上问题需要追责时,
workflow-first比更开放的agentic系统更容易解释
所以从落地角度看:
workflow-first往往是第一站- 自主度更高、也更偏
agentic的系统,更像在已有流程骨架上逐步放大自主性
这不是谁更高级的问题,而是不同阶段的工程选择。
一个粗略的成熟度模型
为了方便记忆,可以先用一个粗糙但很好用的分层。
这里讲的是 agent harness 的成熟度,不是在引入另一种 harness。
V0:提示词工程
主要依赖 prompt。
V1:轻量 agent harness
开始有:
- prompt
- context 注入
AGENTS.md- skill
- MCP
- 基础工具
这个阶段的目标更像:
让 agent 更容易做事。
V2:验证型 agent harness
开始出现:
- 明确的 done 定义
- 自动化验证
- evaluator
- 失败返工
这个阶段的目标变成:
让 agent 做完之后真的过关。
V3:长时运行 agent harness
开始出现:
- 多角色分工
- handoff artifact
- 熵管理
- 结构化状态
- 长任务 orchestration
这时候的目标已经不是“让模型会回答”,而是“让它能连续工作很久,还不容易跑偏”。
这个分层当然不严格,但它有一个好处:
能帮我快速判断一个团队现在到底在补哪种能力。
延伸阅读
如果你想先看概念总图:
如果你更关心验证闭环和动作后验证:
如果你想继续把 agent harness 和 repo instructions / skills / workflow 继续拆开:
- 05. AI Agent 与 Harness:Agent Harness、Graph 与退款 Agent
- 04. AI Agent 与 Harness:Repo Instructions、Skills 与团队工作流
如果你想看 Anthropic 和 LangChain 各自强调什么:
参考
- OpenAI: A practical guide to building agents
- OpenAI: Harness engineering: leveraging Codex in an agent-first world
- Anthropic: Effective harnesses for long-running agents
- LangChain: Improving Deep Agents with harness engineering