斯坦福揭秘 o1-preview 软肋:数学竞赛题稍作修改,准确率骤降 30% 在数学竞赛的领域里,普特南数学竞赛的威名如雷贯耳。它由 William Lowell Putnam 家族发起,自 1938 年首届举办以来,历经 66 年的岁月沉淀,成为全球大学生数学精英们一较高下的顶级赛场。 近日,来自斯坦福的一项研究,却让大家感到意外:仅仅对题目中的变量、常量等要素稍作修改,大模型「尖子生」o1-preview 模型的准确率就立刻大幅下降,降幅高达 30% 这反映出,当前的 AI 模型,哪怕是最顶尖的,在面对数学问题的灵活变化时适应性较差。它们可能对大规模数据训练出来的固定模式有一定依赖,一旦题目超出了熟悉的套路就会出现显着滑坡。
斯坦福揭秘o1-preview软肋:数学竞赛题稍作修改,准确率骤降30%
绮梅谈科技
2025-02-01 21:10:14
0
阅读:10