Anthropic 新发的这篇多 Agent Harness 实践值得一读借

Anthropic 新发的这篇多 Agent Harness 实践值得一读借鉴 GAN（生成对抗网络）的思路，把 agent 拆成 Generator + Evaluator，解决两个关键问题： 1️⃣上下文焦虑：模型在长任务中越来越差，接近 context 上限时会匆忙收工。解法不是 compaction（压缩对话），而是 context reset——彻底清空，用结构化交接文件把状态传给新 agent 2️⃣自我评价失真：agent 评价自己的产出时永远觉得好。解法是把「做」和「评」分成两个 agent，然后把 evaluator 调成严格模式两个实验👇 实验一：前端设计（Generator + Evaluator） - 定义了 4 个评分维度：设计质量、原创性、工艺、功能性 - 重点惩罚 "AI 味"（紫色渐变 + 白色卡片这种） - 跑 5-15 轮迭代，每轮 evaluator 用 Playwright 实际操作页面再打分 - 效果：第 10 轮出现了创造性飞跃——荷兰美术馆从普通暗色主题变成 CSS 3D 空间体验实验二：全栈应用（Planner + Generator + Evaluator） - Planner：1-4 句话 → 完整产品 spec（故意不写技术细节，避免错误级联） - Generator：按 sprint 逐个实现功能 - Evaluator：用 Playwright 像真实用户一样点击测试，打分不过关就打回给 AI 工程师的三条经验 1️⃣Evaluator 不是固定配置——当任务超出模型 solo 能力边界时才值得用 2️⃣Harness 的每个组件都编码了一个假设（"模型做不好 X"），新模型出来要重新验证 3️⃣有趣的 harness 组合空间不会随模型进步而缩小，只会移动——工程师的工作是持续找到新的有效组合

众力资讯网

Anthropic 新发的这篇多 Agent Harness 实践值得一读借

热门分类

Anthropic 新发的这篇多 Agent Harness 实践值得一读 借

热门分类

Anthropic 新发的这篇多 Agent Harness 实践值得一读借