OpenAI新推理模型被曝产生更多“幻觉”,o3/o4-mini性能与错

游乐看科技 2025-04-19 11:55:29

OpenAI 新推理模型被曝产生更多“幻觉”,o3 / o4-mini 性能与错误率一同提升 OpenAI最新发布的o3和o4-mini模型在多项任务中表现出色,但在生成式AI发展过程中难以避免的“幻觉”问题上,却表现出比以往模型更严重的倾向。内部测试显示,o3和o4-mini的幻觉频率超过了前代推理模型甚至传统非推理模型。在OpenAI的PersonQA基准测试中,o3的幻觉率高达33%,o4-mini则达到了48%,远高于前代模型。第三方机构Transluce的测试也证实了这一问题,发现o3在回答问题时会捏造过程操作。OpenAI承认幻觉问题,并表示正在努力提升模型的准确性与可靠性,尽管o3和o4-mini在编程和数学等任务上有所进步,但输出答案总量的增加导致更多错误和幻觉的出现。

0 阅读:0
游乐看科技

游乐看科技

感谢大家的关注