这两天看了很多关于OpenAIo1模型的介绍，卓克老师在得到课程《科技参考》里

秦二二 2024-09-22 10:02:20

这两天看了很多关于OpenAI o1模型的介绍，卓克老师在得到课程《科技参考》里的讲解是最通俗易懂的，简单梳理一下：

①o1是一个更合适进行复杂任务推理的模型，比GPT-4o更擅解决科学、编码、数学方面的难题，在这些方面的表现远远超过GPT-4o，但在文本的理解和生成上，性能略微不如上一版4o。很多人之前把以ChatGPT为代表的大语言模型看成一个文科生，而o1更像是一个擅长推理和计算的高水准理工科学生。

②o1在Codeforce编程竞赛中超过了89%的程序员。

③o1在数学奥林匹克竞赛美国国内的预选赛AIME中，可以跻身前500名学生的水平。

④在国际信息学奥林匹克竞赛的正赛考试中，OpenAI给o1训练出了一个微调版本ioi——在限时10小时内，每题最多允许提交50次的情况下，分数超过了51%的人类选手；如果把提交次数增加到1万次，分数可以足够夺金牌了。

⑤在物理、生物学的考试上，可以超过人类博士级别的准确度。

⑥数学家陶哲轩使用o1正式版之后给出的反馈：1.o1比之前的模型更强，但解决最前沿的数学问题还很困难；2. o1已经可以找到合适的定理解决普通的数学问题了；3.o1可以理解形式化证明的任务，并进行初步的分析。

⑦陶哲轩还用更贴切的体验做了一个总结，那就是，o1的使用体验大致相当于指导一个能力一般但也能胜任部分工作的研究生，而之前版本的GPT则是一个完全无法胜任研究工作的学生。可能只需要再经过1到2代的升级，再加上其他数学工具包的集成，o1就能升级为称职的研究生，届时大语言模型将在数学研究中发挥重要作用。

陶哲轩是2006年菲尔兹奖、拉马努金奖的双料得主，是2012年获得克拉福德奖的天才数学家。他评价o1是个能力一般的研究生，大致相当于杜兰特评价一个人篮球水平一般，只能帮他分担部分场上进攻——实际上这个“一般”已经是行业顶级水准。

⑧o1和之前版本的大语言模型都不太一样，最主要的变化就是思维链技术。o1在尝试任何问题时都会使用一系列思考步骤，o1模型不再依赖记忆海量数据来进行推理，而是能通过灵活使用工具和优化推理过程来实现高效的决策。这在减少模型规模的同时，还保持了强大的推理能力。思维链的生成是靠强化学习的方法训练出来的。

0 阅读：4