[CL]《AProbabilisticInferenceScalingT

爱生活爱珂珂 2025-08-26 06:20:22

[CL]《A Probabilistic Inference Scaling Theory for LLM Self-Correction》Z Yang, Y Zhang, Y Wang, Z Xu... [ Peking University & Alibaba Group] (2025)

大型语言模型（LLM）自我纠正能力的性能演变首次被系统性量化解析。我们提出一套概率推断理论，揭示多轮自我纠正中准确率的动态变化规律：

• 通过递归关系 Acct = Upp − α^t (Upp − Acc0) 精确描述第 t 轮自我纠正后的准确率演进，其中 Upp 为准确率收敛上限，α 控制收敛速率，Acc0 为初始准确率。

• 引入置信度（Confidence Level, CL）与批判能力（Critique Score, CS）两大核心指标，分别衡量模型保持正确答案的能力和纠正错误答案的能力，二者共同决定最终性能极限。

• 实验覆盖多款开源与闭源模型（如 Llama3、GPT-4 Turbo、Qwen-Max）及八大数据集，理论曲线与实测准确率高度吻合，验证理论有效性。

• 三大推论揭示：最终准确率与初始准确率无关，仅由 CL 与 CS 决定；收敛速度由 α = CL − CS 控制，α 越小收敛越快；理想情况下（CL=1），准确率可逼近100%。

• 进一步分析表明，低质量提示词可能破坏 CL 和 CS 的平衡，导致自我纠正失效，准确率下降，提供优化提示词选择的新思路。

• 本理论为理解和优化 LLM 自我纠正机制奠定数学基础，推动推理能力提升和推理扩展的理论研究。

详见👉 arxiv.org/abs/2508.16456

大型语言模型自我纠正推理扩展概率推断人工智能

0 阅读：0

爱生活爱珂珂

感谢大家的关注

作者最新文章

1

SparseLoCo：面向大规模语言模型（LLM）预训练的通信高效算法，革新了分

2

GPT-5在空间智能领域实现重大突破，但仍未完全达到人类水平：• 首次系统整合8

3

[CV]《Next Visual Granularity Generation》

4

[LG]《Depth-Breadth Synergy in RLVR: Unlo

5

[LG]《Numerical models outperform AI weat

6

[LG]《Virtuous Machines: Towards Artifici

7

早！[太阳] 早安

8

大语言模型（LLM）上下文长度的爆炸式增长，背后隐藏着哪些关键技术突破？• 发展

9

OptimalThinkingBench：评估大型语言模型的“过度思考”与“思考

10

谷歌首次发布大规模AI服务环境影响全测量框架，揭示了AI推理能耗、碳排放及水资源

热门分类

推荐热榜军事 NBA 体育社会明星八卦娱乐财经科技汽车历史国际游戏动漫公益搞笑商业互联网数码国际足球房产家居时尚科学探索职场育儿股票教育影视情感热点中国军情武器中国南海中国足球亚洲杯科比综合体育 CBA 投资楼市大咖秀外汇创业风口 SUV 豪车概念车优惠新能源美国欧洲朝日韩俄罗斯孕期街拍恋爱攻略婚姻正能量

科技TOP

1

四选一怎么选？旗舰新机一款比一款炸裂打算今年换机的朋友爽了，看了下今年的旗舰是

2

这是iPhone17只看正面时你立马能区分升级的地方：灵动岛变小了

3

8月8日，河南许昌一小伙，在闲鱼上5300买了一台苹果16pro，结果顺丰配发当

4

华为又放大招啦！8月15号，华为Pura80手机处理器，kirin9020惊艳

5

美团退款看了一下最近两笔账单，都退回来了，这种退款还是要确认一遍，有时候还真会忘

6

想买手机的可以等等了，接下来几个月热闹了九月份开始到年底，这段时间是各个手机

7

小米澎湃OS3眼看小米澎湃的发布会要开了，这次升级最核心的就是手机系统，改动确实

8

追觅官宣造车任何一个有过造车经验的传统品牌推出一个新能源品牌我都能想得到，唯独

9

臻版回归！荣耀太狠了，这次看来是不准备留情面了！荣耀接下来最重磅的机型毫无疑问

10

李想称希望和产品分割开其实理想在产品方面已经是非常不错的了，狗蛋身边不少家庭首选

科技最新文章

1

不可思议！荣耀GT再度出现“捡漏神价”，1200多就能拿下搭载骁龙8Gen3的性

2

记者问：“中美AI差距到底有多大？”梁文峰毫不避讳一针见血地回答：“表面上中国A

3

16+512G版本选谁？荣耀GTPro和Magic7“掐架”啦🤼宝子们，

4

外媒疑惑不解：2nm芯片基本上没人买了！老实说，7纳米就够用了，还便宜，谁会去

5

iOS双版本推送将至！按照以往惯例推测，苹果将于北京时间9月10日

6

照着下图买大电池手机就不会错了。8300mAh的荣耀X70坐稳头把交椅！据小道

7

世界首富马斯克评价DeepSeek，再次语出惊人！他说：“在人类历史的大部分时间

8

一图看懂iPhone17ProMax升级，你会发现苹果这次是真的下血本了！

9

奉劝大家一句：千万不要被iPhone17Air的轻薄骗了！苹果用

10

荣耀Magic8系列发布在即，低于3000元的荣耀Magic7才是真香选择，而且