AI代理的“终极职业考试”来了：顶级模型在真实专业任务上惨败，仅2.6%通过率！

2026-06-07 11:23:06 智研未来科技

AI代理的“终极职业考试”来了：顶级模型在真实专业任务上惨败，仅2.6%通过率！

Agents' Last Exam (ALE，智能体最后一考) 新基准：由加州大学伯克利分校RDI团队与250+行业专家合作打造，涵盖55个子领域（对应美国O*NET/SOC职业分类）、13个行业集群的1000+真实专家任务（目标5000+）。这些任务都是长时程、经济价值高、可验证结果的真实专业工作流，使用真实软件和确定性评分，而非LLM主观判断。当前顶级AI代理在最难层级上的完整通过率平均仅2.6%，整体表现也远未饱和；研究还发现，基础模型选择的影响力约为脚手架（scaffolding）的3倍，失败主因更多是领域知识缺失，而非执行能力不足。