<?xml version="1.0" encoding="utf-8" standalone="yes"?>
<rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom">
  <channel>
    <title>Anthropic on 星澜</title>
    <link>/tags/anthropic/</link>
    <description>Recent content in Anthropic on 星澜</description>
    <generator>Hugo</generator>
    <language>zh-CN</language>
    <lastBuildDate>Wed, 01 Apr 2026 09:00:00 +0800</lastBuildDate>
    <atom:link href="/tags/anthropic/rss.xml" rel="self" type="application/rss+xml" />
    <item>
      <title>06. AI Agent 与 Harness：Harness 是终局还是中间态？</title>
      <link>/post/2026/04/01/2026040106/</link>
      <pubDate>Wed, 01 Apr 2026 09:00:00 +0800</pubDate>
      <guid>/post/2026/04/01/2026040106/</guid>
      <description>&lt;h2 id=&#34;引言&#34;&gt;引言&lt;/h2&gt;&#xA;&lt;p&gt;Anthropic 和 Codex 的分歧，最近算是公开了。&lt;/p&gt;&#xA;&lt;p&gt;同样都在做 coding agent，但对 harness 的判断，两边已经走出了明显不同的方向。一边是 Anthropic 的工程博客，系统展示了他们怎么把 harness 做得更强、更厚。另一边是 Codex 开源负责人 Michael Bolin 在一场访谈里给出的信号——几乎是反着来的。一个在继续加厚，一个在说别做那么厚。&lt;/p&gt;&#xA;&lt;p&gt;这把一个本来没什么争议的问题顶到了台面上：harness 到底是终局，还是只是中间态？&lt;/p&gt;&#xA;&lt;h2 id=&#34;anthropic-在做什么&#34;&gt;Anthropic 在做什么&lt;/h2&gt;&#xA;&lt;p&gt;为了让 Claude Code 能稳定跑完长任务、构建完整应用，Anthropic 往 harness 里加了不少重的结构：&lt;/p&gt;&#xA;&lt;ul&gt;&#xA;&lt;li&gt;&lt;code&gt;planner&lt;/code&gt;：把一句话需求展开成完整规格&lt;/li&gt;&#xA;&lt;li&gt;&lt;code&gt;generator&lt;/code&gt;：负责真正去实现&lt;/li&gt;&#xA;&lt;li&gt;&lt;code&gt;evaluator&lt;/code&gt;：模拟真实用户去跑页面、接口、数据库状态&lt;/li&gt;&#xA;&lt;li&gt;&lt;code&gt;context reset&lt;/code&gt;：上下文快脏掉的时候直接清空，重新起一个新 agent，通过结构化交接文件把状态接过去&lt;/li&gt;&#xA;&lt;/ul&gt;&#xA;&lt;p&gt;这套路线的核心判断是：模型本身还不够稳，所以得靠更强的外部编排来兜住长任务里的跑偏风险。复杂任务之所以能落地，靠的不是单次生成能力，而是整套控制结构够不够强。&lt;/p&gt;&#xA;&lt;p&gt;说白了就是：模型做事，harness 保证别失控。&lt;/p&gt;&#xA;&lt;h2 id=&#34;codex-在说什么&#34;&gt;Codex 在说什么&lt;/h2&gt;&#xA;&lt;p&gt;Michael Bolin 在访谈里给出的方向几乎是反过来的。他说他们理想中的 harness 应该尽可能小、尽可能轻。&lt;/p&gt;&#xA;&lt;p&gt;不是说 harness 不重要，而是：不要把太多决策硬编码进外部框架，不要疯狂堆专用工具，不要让模型每走一步都被人类写好的规则牵着走。&lt;/p&gt;&#xA;&lt;p&gt;Codex 的思路更像是给模型一个真实的运行环境——终端、沙盒、必要的上下文连接能力——但探索路径、调用方式、执行策略，尽量让模型自己决定。&lt;/p&gt;&#xA;&lt;p&gt;打个比方：脚手架可以有，但别把它做成一栋楼。因为模型早晚会涨到能自己处理更多东西。&lt;/p&gt;&#xA;&lt;h2 id=&#34;两边真正的分歧在哪&#34;&gt;两边真正的分歧在哪&lt;/h2&gt;&#xA;&lt;p&gt;表面看是 harness 该做厚还是做薄，但其实两边都没有否认 harness 的价值。他们真正分歧的，是对模型能力曲线的判断不一样。&lt;/p&gt;&#xA;&lt;ul&gt;&#xA;&lt;li&gt;Anthropic 在回答：模型还不够稳的时候，怎样让复杂任务真的跑起来&lt;/li&gt;&#xA;&lt;li&gt;Codex 在回答：模型越来越强之后，哪些外部结构还值得保留&lt;/li&gt;&#xA;&lt;/ul&gt;&#xA;&lt;p&gt;这不是技术细节的分歧，而是两个不同时间假设下的工程选择。&lt;/p&gt;&#xA;&lt;p&gt;如果模型的大幅提升还很远，Anthropic 那条路就是现阶段最务实的选择。如果模型跃迁来得很快，Codex 那条路是在提醒你：别把过渡期的脚手架做成未来的长期负担。&lt;/p&gt;&#xA;&lt;h2 id=&#34;底线&#34;&gt;底线&lt;/h2&gt;&#xA;&lt;p&gt;Bolin 也没有说 harness 会彻底消失。他保留了一个底线：环境和安全不退场。&lt;/p&gt;</description>
    </item>
    <item>
      <title>番外. AI Agent 与 Harness：Anthropic 和 LangChain 的 Harness Engineering</title>
      <link>/post/2026/03/29/2026032906/</link>
      <pubDate>Sun, 29 Mar 2026 15:00:00 +0800</pubDate>
      <guid>/post/2026/03/29/2026032906/</guid>
      <description>&lt;h2 id=&#34;引言&#34;&gt;引言&lt;/h2&gt;&#xA;&lt;p&gt;聊 &lt;code&gt;harness engineering&lt;/code&gt;，资料并不少，真正难的是不同文章经常不在同一层说话。&lt;/p&gt;&#xA;&lt;p&gt;Anthropic 和 LangChain 这两篇很适合放在一起看：前者更像在谈长任务架构，后者更像在谈运行时调优。&lt;/p&gt;&#xA;&lt;p&gt;如果前两篇《&lt;a href=&#34;/post/2026/03/29/2026032901/&#34;&gt;01. AI Agent 与 Harness：概念梳理&lt;/a&gt;》和《&lt;a href=&#34;/post/2026/03/29/2026032902/&#34;&gt;02. AI Agent 与 Harness：从 Prompt 到 Harness&lt;/a&gt;》解决的是概念和背景，那么这一篇要解决的是三件事：&lt;/p&gt;&#xA;&lt;ul&gt;&#xA;&lt;li&gt;Anthropic 和 LangChain 这两篇文章各自在强调什么&lt;/li&gt;&#xA;&lt;li&gt;它们为什么都把 &lt;code&gt;harness&lt;/code&gt; 看得比 prompt 更重要&lt;/li&gt;&#xA;&lt;li&gt;它们的视角有什么共同点，又有什么区别&lt;/li&gt;&#xA;&lt;/ul&gt;&#xA;&lt;p&gt;如果你更关心落地阶段的验证闭环，可以接着读《&lt;a href=&#34;/post/2026/03/29/2026032903/&#34;&gt;03. AI Agent 与 Harness：V2 Harness 的验证设计&lt;/a&gt;》。&lt;/p&gt;&#xA;&lt;h2 id=&#34;为什么这两篇文章值得单独拿出来看&#34;&gt;为什么这两篇文章值得单独拿出来看&lt;/h2&gt;&#xA;&lt;p&gt;因为它们都把一个过去经常被模糊处理的问题说透了：&lt;/p&gt;&#xA;&lt;p&gt;&lt;code&gt;模型能力强，不等于系统就稳定。&lt;/code&gt;&lt;/p&gt;&#xA;&lt;p&gt;过去很多讨论会把注意力放在：&lt;/p&gt;&#xA;&lt;ul&gt;&#xA;&lt;li&gt;模型版本&lt;/li&gt;&#xA;&lt;li&gt;提示词技巧&lt;/li&gt;&#xA;&lt;li&gt;上下文长度&lt;/li&gt;&#xA;&lt;li&gt;是否支持工具调用&lt;/li&gt;&#xA;&lt;/ul&gt;&#xA;&lt;p&gt;但这两篇文章真正强调的是：&lt;/p&gt;&#xA;&lt;ul&gt;&#xA;&lt;li&gt;工具怎么组织&lt;/li&gt;&#xA;&lt;li&gt;上下文怎么管理&lt;/li&gt;&#xA;&lt;li&gt;失败怎么被发现&lt;/li&gt;&#xA;&lt;li&gt;系统怎么返工&lt;/li&gt;&#xA;&lt;li&gt;长任务怎么防止熵增&lt;/li&gt;&#xA;&lt;/ul&gt;&#xA;&lt;p&gt;也就是说，它们讨论的重点不是“模型会不会”，而是“系统能不能稳定做完”。&lt;/p&gt;&#xA;&lt;h2 id=&#34;anthropic-那篇到底在讲什么&#34;&gt;Anthropic 那篇，到底在讲什么&lt;/h2&gt;&#xA;&lt;p&gt;文章原文：&lt;/p&gt;&#xA;&lt;ul&gt;&#xA;&lt;li&gt;&lt;a href=&#34;https://www.anthropic.com/engineering/effective-harnesses-for-long-running-agents&#34;&gt;Effective harnesses for long-running agents&lt;/a&gt;&lt;/li&gt;&#xA;&lt;/ul&gt;&#xA;&lt;h3 id=&#34;1-它说的-harness-很重&#34;&gt;1. 它说的 harness 很重&lt;/h3&gt;&#xA;&lt;p&gt;Anthropic 那篇最重要的一个信号是：&lt;br&gt;&#xA;他们说的 harness，不是几个 prompt，不是一份 &lt;code&gt;AGENTS.md&lt;/code&gt;，也不是若干个 tool 描述。&lt;/p&gt;</description>
    </item>
  </channel>
</rss>
