<?xml version="1.0" encoding="utf-8" standalone="yes"?>
<rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom">
  <channel>
    <title>Claude Code on 星澜</title>
    <link>/tags/claude-code/</link>
    <description>Recent content in Claude Code on 星澜</description>
    <generator>Hugo</generator>
    <language>zh-CN</language>
    <lastBuildDate>Sun, 29 Mar 2026 12:00:00 +0800</lastBuildDate>
    <atom:link href="/tags/claude-code/rss.xml" rel="self" type="application/rss+xml" />
    <item>
      <title>03. AI Agent 与 Harness：V2 Harness 的验证设计</title>
      <link>/post/2026/03/29/2026032903/</link>
      <pubDate>Sun, 29 Mar 2026 12:00:00 +0800</pubDate>
      <guid>/post/2026/03/29/2026032903/</guid>
      <description>&lt;h2 id=&#34;引言&#34;&gt;引言&lt;/h2&gt;&#xA;&lt;p&gt;前面两篇把概念和演进背景铺开了，但真正落到工程里，最难的一层往往不是”怎么让 agent 开始做事”，而是”怎么确认它真的做成了”。&lt;/p&gt;&#xA;&lt;p&gt;很多团队已经有 prompt、skill、&lt;code&gt;AGENTS.md&lt;/code&gt;、MCP 和常用工具，agent 也确实能开始干活。&lt;br&gt;&#xA;问题通常出在交付阶段：测试会漏跑，状态会漏校验，模型会以为自己完成了，系统却没有真的过关。&lt;/p&gt;&#xA;&lt;p&gt;所以这一篇只想回答一个非常落地的问题：&lt;/p&gt;&#xA;&lt;p&gt;&lt;code&gt;验证阶段的 harness，到底应该怎么设计？&lt;/code&gt;&lt;/p&gt;&#xA;&lt;p&gt;尤其是下面这个追问：&lt;/p&gt;&#xA;&lt;ul&gt;&#xA;&lt;li&gt;coding agent 里，我们已经会在 &lt;code&gt;AGENTS.md&lt;/code&gt;、&lt;code&gt;CLAUDE.md&lt;/code&gt;、skill 里要求“写完要补测试并运行”，但模型还是会偶尔忘记&lt;/li&gt;&#xA;&lt;li&gt;那业务 agent 的验证到底该怎么做&lt;/li&gt;&#xA;&lt;li&gt;动作后验证到底是什么&lt;/li&gt;&#xA;&lt;li&gt;它在 &lt;code&gt;agent harness&lt;/code&gt; 里怎么落，以及在仓库规则、验证命令和 CI 流程里怎么体现&lt;/li&gt;&#xA;&lt;/ul&gt;&#xA;&lt;p&gt;如果你还没看前面两篇，可以先从《&lt;a href=&#34;/post/2026/03/29/2026032901/&#34;&gt;01. AI Agent 与 Harness：概念梳理&lt;/a&gt;》和《&lt;a href=&#34;/post/2026/03/29/2026032902/&#34;&gt;02. AI Agent 与 Harness：从 Prompt 到 Harness&lt;/a&gt;》开始，再回来看这一篇会更顺。&lt;/p&gt;&#xA;&lt;p&gt;很多团队其实已经有了 &lt;code&gt;V1&lt;/code&gt; 级别的 agent setup，但还没有真正进入 &lt;code&gt;V2 agent harness&lt;/code&gt;。&lt;/p&gt;&#xA;&lt;p&gt;比如开发团队里，大家已经开始做这些事：&lt;/p&gt;&#xA;&lt;ul&gt;&#xA;&lt;li&gt;指定统一使用 &lt;code&gt;Codex&lt;/code&gt; 或 &lt;code&gt;Claude Code&lt;/code&gt;&lt;/li&gt;&#xA;&lt;li&gt;写 &lt;code&gt;AGENTS.md&lt;/code&gt; / &lt;code&gt;CLAUDE.md&lt;/code&gt;&lt;/li&gt;&#xA;&lt;li&gt;把代码规范、框架规范、提交流程整理成 skill&lt;/li&gt;&#xA;&lt;li&gt;推荐安装 &lt;code&gt;dbhub MCP&lt;/code&gt;、&lt;code&gt;GitHub MCP&lt;/code&gt;、&lt;code&gt;fetch MCP&lt;/code&gt;&lt;/li&gt;&#xA;&lt;li&gt;固定常用命令、目录结构和交付格式&lt;/li&gt;&#xA;&lt;/ul&gt;&#xA;&lt;p&gt;这些都很有价值，而且已经远远不只是“写好提示词”了。&lt;br&gt;&#xA;但它们更多解决的是：&lt;/p&gt;&#xA;&lt;ul&gt;&#xA;&lt;li&gt;怎么给 agent 足够的上下文&lt;/li&gt;&#xA;&lt;li&gt;怎么统一团队使用方式&lt;/li&gt;&#xA;&lt;li&gt;怎么让 agent 更容易做事&lt;/li&gt;&#xA;&lt;/ul&gt;&#xA;&lt;p&gt;这更多还是：&lt;/p&gt;</description>
    </item>
  </channel>
</rss>
