02. AI Agent 与 Harness:从 Prompt 到 Harness
mingzaily / Codex / 2026-03-29
这几年看 AI 相关讨论,一个很明显的变化是:大家聊的话题一直在往外扩。
最开始聊的是 prompt,后来开始聊 context、tool calling、workflow,再到这两年越来越常见的 harness engineering。
表面上看,好像只是名词越来越多。
但如果把这些讨论放回工程语境里,它们其实指向的是同一个变化:
任务越来越像真实系统问题,单次提示词已经不够解释 agent 的表现了。
这篇文章想回答的,就是下面这个问题:
为什么今天大家会从 prompt engineering,一路谈到 context engineering,最后谈到 harness engineering?
如果你更想继续往后读:
- 外部文章拆解:03. AI Agent 与 Harness:Anthropic 和 LangChain 的 Harness Engineering
- 验证落地篇:04. AI Agent 与 Harness:V2 Harness 的验证设计
- 工程落地篇:05. AI Agent 与 Harness:Agent Harness、Graph 与退款 Agent
- 团队落地篇:06. AI Agent 与 Harness:Repo Instructions、Skills 与团队工作流
结论
harness engineering 之所以变成热词,不是因为大家突然发明了一个新名词,而是因为任务复杂度真的变了。
- 当任务还只是一次性问答时,prompt 就已经很有用
- 当任务开始跨多轮、多工具、多状态、多系统时,光靠 prompt 就不够了
- 一旦目标从“回答得像”变成“真的做完并且做对”,系统设计就自然会压过单次提示词技巧
AI 讨论的重心,正在从“怎么让模型更会说”,转向“怎么让系统更稳定地做完”。
为什么今天大家会频繁谈 harness
过去很多讨论会把注意力放在:
- 模型版本
- 提示词技巧
- 上下文长度
- 是否支持工具调用
这些当然都重要。
但一旦模型开始进入真实业务系统,大家很快就会撞上另一类问题:
- 工具怎么组织
- 上下文怎么管理
- 状态怎么保存
- 失败怎么被发现
- 返工怎么被触发
- 长任务怎么防止熵增
这时你会发现,真正决定体验差距的,往往已经不是模型单点能力,而是模型外面那层运行环境和工程设计。
这也是为什么今天越来越多人开始谈:
- context engineering
- harness engineering
AI 是怎么一步步走到这里的
如果把这几年的 AI 使用方式压成一条线,大概可以这样看。
第一阶段:网页版对话
最开始大家接触 AI,往往就是网页聊天。
你输入一句话,它回一句话。
这个阶段最核心的能力是:
- 问答
- 写作
- 总结
- 翻译
- 灵感补全
那时候大家最在意的是:
这个模型聪不聪明,回答像不像人。
第二阶段:提示词工程
再往后,大家开始意识到:
同一个模型,提示词写得不一样,效果差别非常大。
于是开始出现:
- 角色设定
- 输出格式约束
- few-shot 示例
- 长 prompt 模板
这个阶段的关键词是:
怎么提问,模型才更听话。
第三阶段:API 和 Tool Calling
再下一步,模型不只是聊天,而是开始通过 API 接入业务系统。
这时大家发现:
- 模型可以不只“说”
- 它还可以“调用外部能力”
也就是从“纯回答”走向“可以行动”。
Tool calling、function calling、插件、MCP 这类能力,都是这一阶段慢慢变重要的。
第四阶段:Workflow-First
当模型开始进入业务系统后,工程上第一个自然选择通常不是直接做高自治、强 agentic 的系统,而是先做 workflow-first。
原因很现实:
- 规则更清晰
- 风险更可控
- 更适合接业务系统
- 更容易审计和追责
所以很多早期业务 AI,看起来很智能,本质上其实是:
工作流 + 模型节点
第五阶段:自主决策更多的 Agent 系统
接着人们开始想要更强的系统:
- 能自己拆任务
- 能自己决定下一步
- 能调用工具
- 能持续推进
这时大家追求的,已经不只是“流程里挂一个模型节点”,而是让系统在运行时承担更多规划和决策。
焦点也从“回答得好不好”变成“能不能真的把事做完”。
这里最好把两个词拆开:
agent是系统层概念,指一个围绕目标持续行动的执行体agentic是技术风格概念,指系统把多少规划、路由和工具选择交给运行时动态决定
所以这一步不是说系统会突然变成“完全没有流程骨架”的形态。
更常见的现实是:
- 它已经是一个 agent 产品
- 但底层实现仍然是
workflow-first + 局部 agentic 能力 - 只是随着底层系统变强,系统会把更多关键决策交给执行时动态产生
第六阶段:Harness Engineering
到了今天,大家越来越发现,真正拉开体验差距的,不只是模型本身,而是它外面那层运行环境和工程设计。
同一个模型,放在不同工具组合、不同 context 管理方式、不同验证闭环里,最后呈现出来的“智慧程度”真的会不一样。
于是讨论重心开始从:
- 模型能力
- prompt 技巧
慢慢转向:
- context engineering
- harness engineering
也就是:
不是让模型更聪明,而是让模型在真实任务里更稳定地把事做对。
为什么 Workflow-First 往往比自主度更高的系统更早落地
很多人一听到 agent,就会自动联想到一个几乎能自己包办一切的系统。
但真实业务里,这种想象通常会先被流程、权限、审计和风控拉回地面。
所以这里对比的重点,不是“workflow 算不算 agent”,而是:
workflow-first 和“把更多决策交给运行时动态处理”的系统,谁更容易先落地。
这里也不要把“更 agentic”理解成“完全没有流程图”。
一旦系统要落实到真实业务里,几乎总会有某种 graph、状态机或 orchestration 骨架。
区别通常在于:
- 图上的主要路径是不是预定义的
- 还是说模型会在执行中动态决定走哪条边、调什么工具、要不要返工
换句话说,graph 几乎总会有;真正变化的是图上有多少边是设计时固定的,又有多少边是运行时决定的。
原因并不神秘:
- 业务规则本来就比较固定
- 真正高风险的动作不适合完全开放决策
- 系统要对接现有权限、审批和审计链路
- 线上问题需要追责时,
workflow-first比更开放的agentic系统更容易解释
所以从落地角度看:
workflow-first往往是第一站- 自主度更高、也更偏
agentic的系统,更像在已有流程骨架上逐步放大自主性
这不是谁更高级的问题,而是不同阶段的工程选择。
一个粗略的成熟度模型
为了方便记忆,可以先用一个粗糙但很好用的分层。
这里讲的是 agent harness 的成熟度,不是在引入另一种 harness。
V0:提示词工程
主要依赖 prompt。
V1:轻量 agent harness
开始有:
- prompt
- context 注入
AGENTS.md- skill
- MCP
- 基础工具
这个阶段的目标更像:
让 agent 更容易做事。
V2:验证型 agent harness
开始出现:
- 明确的 done 定义
- 自动化验证
- evaluator
- 失败返工
这个阶段的目标变成:
让 agent 做完之后真的过关。
V3:长时运行 agent harness
开始出现:
- 多角色分工
- handoff artifact
- 熵管理
- 结构化状态
- 长任务 orchestration
这时候的目标已经不是“让模型会回答”,而是“让它能连续工作很久,还不容易跑偏”。
这个分层当然不严格,但它有一个好处:
能帮我快速判断一个团队现在到底在补哪种能力。
也许未来,很多 harness 会被“吃进底层”
harness engineering 很像一个过渡时代的核心工程能力。
因为今天的模型还不够稳定:
- 它会忘
- 它会漂
- 它会自评过宽
- 它会在长任务里失去结构
- 它会在工具充足时反而乱试
所以我们才需要:
- skill
- SOP
AGENTS.md- evaluator
- trace
- loop detection
- handoff artifact
- 各种规则和护栏
但也许未来,模型真的强到足以稳定完成长期规划、可靠执行、严格自检、自动管理上下文的时候,今天这些显式的 harness、规范和流程,很多都会慢慢下沉到底层平台或基础设施里。
那时我们也许不会再频繁讨论:
- 这个 skill 怎么写
- 这个 handoff artifact 长什么样
- 这个 evaluator 要不要独立
- 这个 MCP 要怎么接
更准确地说,不是以后真的“不需要 harness”了,而是很多今天需要人手工搭建的工程层能力,可能会慢慢变成系统默认能力。
比如:
- 上下文压缩、历史摘要、状态恢复,可能越来越自动
- 工具选择、权限控制、失败重试,可能越来越多地被底层平台接管
- 但团队规范、业务规则、验收标准这类东西,通常还是需要 repo instructions、skills 和验证流程持续显式定义
因为这些能力一旦下沉成功,就会像今天的网络重传、连接池、缓存淘汰一样,被默认做好。
今天的 harness 更像:
在模型还没有强到“天然可靠”之前,人类给它搭的临时工程外骨骼。
延伸阅读
如果你想先看概念总图:
如果你想看 Anthropic 和 LangChain 各自强调什么:
如果你更关心验证闭环和 Post-condition Validator:
如果你想继续把 agent harness 和 repo instructions / skills / workflow 继续拆开:
- 05. AI Agent 与 Harness:Agent Harness、Graph 与退款 Agent
- 06. AI Agent 与 Harness:Repo Instructions、Skills 与团队工作流
几句话总结
prompt engineering没过时,但它已经不够解释今天的 agent 系统。- 只要任务开始跨多轮、多工具、多状态,系统设计的重要性就会上升。
- 很多业务场景真正先落地的,不是高自治 agent 系统,而是
workflow-first + 局部 agentic 能力。 harness engineering讨论的核心,不是模型会不会,而是系统能不能稳定做完。V0 -> V1 -> V2 -> V3这条线,本质上是在描述系统可靠性要求的升级。- 今天很多显式 harness,也许未来会越来越多地下沉进平台层和基础设施层。
参考
- OpenAI: A practical guide to building agents
- OpenAI: Harness engineering: leveraging Codex in an agent-first world
- Anthropic: Effective harnesses for long-running agents
- LangChain: Improving Deep Agents with harness engineering