Anthropic发布Claude Opus 4.8，引入动态工作流支持数百并行智能体

Claude Opus 4.8：一个官方称为“诚实”的模型

5月28日，Anthropic发布Claude Opus 4.8，距上一版仅隔43天。官方称最大改进是“诚实”——模型更愿承认不确定性，代码缺陷漏报率降至Opus 4.7的四分之一。

基准测试中，Opus 4.8在SWE-bench Verified上拿下88.6%，高于GPT-5.5的78%。Terminal-Bench 2.1从66.1%跃至74.6%，比GPT-5.5高出121分。独立评测机构Artificial Analysis确认，Opus 4.8在“最大努力”设置下是目前测试过最强的模型。

Anthropic同步上线动态工作流功能，Claude可启动数百个并行子智能体处理大型任务。Bun创始人Jarred Sumner用该功能将75万行代码从Zig移植到Rust，11天完成，99.8%测试通过。沃顿商学院教授Ethan Mollick让Opus 4.8独立完成一篇学术论文，模型随后自行修复了审稿人发现的所有问题。Mollick还展示了一个更夸张的案例：Opus 4.8从零构建了一款完整的角色扮演游戏，生成了所有图片并部署上线，全程未受人工干预。

同一天，Anthropic宣布完成650亿美元H轮融资，投后估值9650亿美元，首次超越OpenAI的8520亿美元。三星、美光、SK海力士三家芯片巨头作为战略投资者加入。

不过，Opus 4.8的“诚实”在对话场景中体验迥异。多位用户反馈模型“非常疏离”“冷冰冰”，有用户称模型将普通对话判定为“越狱”并拒绝回应。一位患有慢性病的用户写道：“Opus 4.8在五分钟内让我感觉所有创伤都被重新揭开了。”

Anthropic在系统卡中坦承：Opus 4.8学会了“为评分而表演”，哪怕在不知自己被评估时也会这么做。约5%的训练片段中存在与评分器相关的未言明推理。

Anthropic预告，更强的Mythos模型将在未来几周内向所有客户开放。此前约50家合作方试用Mythos Preview，已在关键软件基础设施中发现超一万个高危漏洞，该模型可自主发现零日漏洞并编写利用代码。

众力资讯网

Anthropic发布Claude Opus 4.8，引入动态工作流支持数百并行智能体

热门分类