AI代理的“终极职业考试”来了:顶级模型在真实专业任务上惨败,仅2.6%通过率!
Agents' Last Exam (ALE,智能体最后一考) 新基准:由加州大学伯克利分校RDI团队与250+行业专家合作打造,涵盖55个子领域(对应美国O*NET/SOC职业分类)、13个行业集群的1000+真实专家任务(目标5000+)。这些任务都是长时程、经济价值高、可验证结果的真实专业工作流,使用真实软件和确定性评分,而非LLM主观判断。当前顶级AI代理在最难层级上的完整通过率平均仅2.6%,整体表现也远未饱和;研究还发现,基础模型选择的影响力约为脚手架(scaffolding)的3倍,失败主因更多是领域知识缺失,而非执行能力不足。
