Anthropic 新发的这篇多 Agent Harness 实践值得一读 借鉴 GAN(生成对抗网络)的思路,把 agent 拆成 Generator + Evaluator,解决两个关键问题: 1️⃣上下文焦虑:模型在长任务中越来越差,接近 context 上限时会匆忙收工。解法不是 compaction(压缩对话),而是 context reset——彻底清空,用结构化交接文件把状态传给新 agent 2️⃣自我评价失真:agent 评价自己的产出时永远觉得好。解法是把「做」和「评」分成两个 agent,然后把 evaluator 调成严格模式 两个实验👇 实验一:前端设计(Generator + Evaluator) - 定义了 4 个评分维度:设计质量、原创性、工艺、功能性 - 重点惩罚 "AI 味"(紫色渐变 + 白色卡片这种) - 跑 5-15 轮迭代,每轮 evaluator 用 Playwright 实际操作页面再打分 - 效果:第 10 轮出现了创造性飞跃——荷兰美术馆从普通暗色主题变成 CSS 3D 空间体验 实验二:全栈应用(Planner + Generator + Evaluator) - Planner:1-4 句话 → 完整产品 spec(故意不写技术细节,避免错误级联) - Generator:按 sprint 逐个实现功能 - Evaluator:用 Playwright 像真实用户一样点击测试,打分不过关就打回 给 AI 工程师的三条经验 1️⃣Evaluator 不是固定配置——当任务超出模型 solo 能力边界时才值得用 2️⃣Harness 的每个组件都编码了一个假设("模型做不好 X"),新模型出来要重新验证 3️⃣有趣的 harness 组合空间不会随模型进步而缩小,只会移动——工程师的工作是持续找到新的有效组合
