OpenAI新推理模型被曝产生更多“幻觉”，o3/o4-mini性能与错

游乐看科技 2025-04-19 11:55:29

OpenAI 新推理模型被曝产生更多“幻觉”，o3 / o4-mini 性能与错误率一同提升 OpenAI最新发布的o3和o4-mini模型在多项任务中表现出色，但在生成式AI发展过程中难以避免的“幻觉”问题上，却表现出比以往模型更严重的倾向。内部测试显示，o3和o4-mini的幻觉频率超过了前代推理模型甚至传统非推理模型。在OpenAI的PersonQA基准测试中，o3的幻觉率高达33%，o4-mini则达到了48%，远高于前代模型。第三方机构Transluce的测试也证实了这一问题，发现o3在回答问题时会捏造过程操作。OpenAI承认幻觉问题，并表示正在努力提升模型的准确性与可靠性，尽管o3和o4-mini在编程和数学等任务上有所进步，但输出答案总量的增加导致更多错误和幻觉的出现。

0 阅读：0

游乐看科技

感谢大家的关注

作者最新文章

1

谷歌在美国广告技术反垄断案中部分败诉美国司法部起诉谷歌的反垄断诉讼取得部分胜

2

科学家发现124光年外存在外星生命的潜在迹象天文学家利用詹姆斯·韦伯太空望远

3

xAI为Grok添加“记忆”功能埃隆·马斯克的xAI公司正致力于提升其Gro

4

动力电池强制性新国标出台，热失控强制标准引人关注强制性国家标准《电动汽车用动

5

工信部收紧智能网联汽车监管三大方向规范智驾营销与使用 16日晚间，工信部装备

6

美国航空将于明年起提供免费机上Wi-Fi服务美国航空宣布自2026年1月起，

7

谷歌在英国面临 50 亿英镑的集体诉讼谷歌在英国被数千家企业集体起诉，要求最

8

史上最快存储速度！复旦大学亚纳秒级闪存技术登 Nature，未来电脑有望不区分内

9

OpenAI 预告凌晨直播，满血版 o3 推理模型有望登场 OpenAI 宣布

10

三星或将在中国大陆推出Samsung Auto Reddit用户在One UI

热门分类

推荐热榜军事 NBA 体育社会明星八卦娱乐财经科技汽车历史国际游戏动漫公益搞笑商业互联网数码国际足球房产家居时尚科学探索职场育儿股票教育影视情感热点中国军情武器中国南海中国足球亚洲杯科比综合体育 CBA 投资楼市大咖秀外汇创业风口 SUV 豪车概念车优惠新能源美国欧洲朝日韩俄罗斯孕期街拍恋爱攻略婚姻正能量

科技TOP

1

安卓闭源了，中国手机厂商末日来临？华为鸿蒙崛起？突发大新闻，谷歌终于对安卓下

2

本期盘点即将发布的新机：OPPO、vivo和华为你更喜欢哪款？

3

小米汽车小米YU9路试谍照&渲染图小米YU9路试谍照&渲染图，大家

4

苹果总部首席工程师孔龙已回国！有点遗憾的是，正值国家缺乏半导体人才之际，孔龙不是

5

我知道，都是大屏的问题🙊

6

2025目前最强的六款旗舰手机，就差即将发布的蓝厂的X200Ultra了，会否

7

孔龙自美归国苹果的首席工程师都回国了！这个孔大佬可是牛啊，在苹果搞出了三款芯片，

8

小姐姐用的是哪款iPhone？感觉这机型用很多年了吧？

9

目前世界上销量最高的两款旗舰机，大家感受一下[doge]

10

预算2000元适合买什么手机？这次机型供参考，性价比和当年小米1999不相上下。

科技最新文章

1

突发，麒麟8010要来了！据多方消息，结合知名数码大V爆料，预计，最

2

2025年全球五大手机芯片：1.‌高通骁龙8ELite：2.‌苹果A18

3

中端神机如何选？下面三款不踩坑！荣耀X60Pro：精致耐看，号称小Mate7

4

用了四年华为，昨天还是没忍住，换了荣耀。跟你们讲个特别逗的事，昨天带娃去游乐

5

预算2000元适合买什么手机？这次机型供参考，性价比和当年小米1999不相上下。

6

关税战正式开始了：叫停波音飞机后，亚马逊也突然取消我国大批订单，无数厂家怒了

7

小米13、14、15应该怎么选？众所周知，自从小米13系列开始，小米数字系列

8

荣耀又可以捡漏了！16+512G的荣耀Magic7迎来大降价百亿补贴+国补，

9

刚到华为店里瞧了瞧nova13，又去小米那儿看了看k80以及note14pro+

10

我发现一个很奇怪的现象，不知道大家有没有发现？三星手机，以前都是高端产品，价