【OpenAIo1下一代o3登场：相比前代模型o1提升超过20%】 Op

【OpenAI o1 下一代o3登场：相比前代模型o1提升超过 20%】 OpenAI 为规避与英国电信服务提供商O2的版权及商标冲突，决定将下一代模型命名为“o3”,跳过“o2”。 OpenAI 在其“12 Days of OpenAI”活动中正式发布全新一代推理模型o3 及其精简版 o3 mini。 o3 被认为是高性能推理模型，而o3-mini 则在保持智能的同时优化性能和成本。性能方面，o3在多项基准测试中表现优越，特别是在编程和数学领域显著提升。例如，在SWE-bench Verified 真实世界软件任务评估中的准确率达到 71.7%，相比前代模型o1提升超过 20%。在CodeForce竞赛编程上，o3达到 2727 ELO 分数。在AIME数据竞赛中，o3的准确率高达 96.7%，比o1提高13.4%。在博士级科学问题基准GPQA Diamond 上，o3达到87.7%的准确率。更重要的是，o3在ARC-AGI测试中首次突破人类水平阈值 85%，达到 87.5%。 o3-mini 支持三种推理努力级别：低、中、高。在中等推理时间下的性能已超过o1 同时，OpenAI 声称，至少在某些条件下，o3 模型可以接近实现AGI（通用人工智能）。成本方面，o3在低计算量模式下，每个任务需要花费高达 20 美金，而在高计算量模式中每个任务则需要数千美金。总而言之，OpenAI 的下一代推理模型o3 在性能上显著提升，特别是在编程和数学领域，并朝着实现AGI的方向前进，并预计于2025年初正式推出。