【大模型进入“大力出悲剧”阶段:为什么模型越大越爱一本正经胡说八道】
AI圈的Scaling Law正在撞墙。最新数据显示,像GPT-5.5和DeepSeek V4 Pro这种万亿级参数的巨兽,在面对未知问题时,幻觉率竟然高达86%和94%。相比之下,参数量只有它们一半的GLM-5.2,幻觉率仅为28%。
这背后的逻辑很讽刺:模型被喂了太多“标准答案”,以至于它们学会了“永远要给出一个答案”,哪怕那个答案是凭空捏造的。这种过度拟合让大模型变成了高智商的杠精,宁愿花几千个推理Token去圆一个逻辑死循环,也不愿承认自己不懂。
现在的顶级实验室已经不再迷恋暴力堆算力,而是开始给模型请“私教”。他们开出1500美元一个案例的高价,雇佣顶级医生、律师和科学家编写高质量的推理逻辑和评价量表。
真正的智能不再是比谁读过的网页多,而是比谁的“不确定性校准”做得好。一个能准确判断技术悖论并果断说出“我不知道”的模型,比一个只会堆砌词藻的万亿参数巨兽更有商业价值。AI的下半场,拼的是逻辑深度和认知的诚实度,而不是单纯的体积。
arrowtsx.dev/bigger-models/
