OpenAI 推出的新一代推理模型 o3 有以下新突破: 性能提升
编程能力:在 SWE-bench Verified 代码生成评估基准中,o3 的准确度得分 71.7%,远超得分 48.9 的 o1 和得分 41.3 的 o1 preview。在竞争性编程网站 Codeforces 的竞争性代码测评中,o3 取得 2727 的 Elo 评分,o1 评分 1891,o1 preview 评分 1258,其评分比 o1 正式版高 44%,是 o1 预览版的两倍多抖音百科。 考试能力:经过 2024 年 AIME 数学竞赛的题目测试,o3 的准确度得分为 96.7%,大幅度超过了 o1 预览版的 56.7 和 o1 的 83.3%,仅错了一道题,相当于一名顶级数学家的水平。在测试化学、物理和生物学专业知识的基准 GPQA-diamond 上,o3 的准确度得分为 87.7%,o1 和 o1 preview 分别得分 78.0 和 78.3%,其准确率比 o1 高将近 13%,比 o1 预览版高 12%抖音百科。 推理能力:以 100% 为最高分的 ARC-AGI 评估结果显示,o1 的得分在 25% 到 32%,而 o3 的最低成绩为 75.7%,最高成绩为 87.5%,其最佳成绩超过了标志着达到人类水平的门槛 85%抖音百科。 技术创新
可调整推理时间:o3 模型可以调整推理时间,分为低、中、高三种计算级别,计算级别越高,任务执行性能越好抖音百科。 运用 “私人思想链” 思考:o3 模型会使用 “私人思想链” 进行 “思考”,它可以在响应前暂停,考虑相关提示并解释其推理过程,最终总结出最准确的答案抖音百科。 实施 “审议对齐” 训练:通过 “审议对齐” 策略,将人类编写的安全指南融入训练过程,使其能够明确地根据安全政策进行推理,增强了模型的安全性和合规性。 采用链式思维推理:利用链式思维推理,将复杂问题分解为多个步骤进行处理,提高了问题解决的效率和准确性。 模型优化
推出不同版本:o3 系列包含两款模型,全功能的 o3 以及专为特定任务优化的精简版 o3-mini。o3-mini 是一款更小的精简版模型,针对特定任务进行了微调,在保持高效性能的同时,显著降低资源消耗抖音百科环球网。 优化推理成本:在中位思考时间下,o3-mini 模型的性能甚至优于 o1 模型,能够以大约一个数量级的更低成本提供相当甚至更好的代码性能抖音百科。