AI离取代知识工作者，还有多远的“真实世界鸿沟”？Artificial Anal

AI离取代知识工作者，还有多远的“真实世界鸿沟”？Artificial Analysis推出全新基准测试AA-Briefcase，专注于评估AI模型在长时域（long-horizon）知识工作中的表现。它模拟真实企业多周复杂项目，包含四个私有场景（覆盖数据科学、产品管理、公司战略等），每个场景涉及数千个碎片化输入文件（如2.5万+ Slack消息、3500+邮件、会议记录、数据导出等），并要求模型产出财务模型、董事会演示、设计mock-up等实际交付物。

关键结果：Claude Fable 5领先（1587 Elo），Claude Opus 4.8（1356）、GLM-5.2 max（1266）紧随其后。成本差异巨大：Fable 5约31美元/任务，GLM-5.2仅2.4美元，DeepSeek V4 Flash低至0.04美元，性价比优势明显。但即使顶级模型也仅在3%任务上满足所有rubric标准，31/91任务中无模型超过50%通过率；难度随所需输入文件数量显著上升。

AA-Briefcase告诉开发者：单纯追求参数规模或单任务准确率已不够，必须在长上下文鲁棒性、工具使用持久性和现实模糊处理上狠下功夫。对于企业用户，这是一个清醒剂——AI能极大提升生产力，但离“自主接管复杂项目”还有距离，人机协同仍是当下最优解。

众力资讯网

AI离取代知识工作者，还有多远的“真实世界鸿沟”？Artificial Anal

热门分类