NeurIPS 2025(神经信息处理系统大会)今年的获奖论文.包括4篇 Best Papers和3篇 Runners-Up 论文.1. Artificial Hivemind: The Open-Ended Homogeneity of Language Models (and Beyond) (人造蜂巢思维:语言模型的开放式同质化及其延伸) 这篇最佳论文揭示了当前大型语言模型(LLM)中存在的一种“人造蜂巢思维”现象,即不同模型生成的开放式回答表现出惊人的同质化。研究团队推出了名为“Infinity-Chat”的大规模数据集,包含2.6万个没有标准答案的开放式问题。通过对这些问题的分析,作者发现模型不仅存在内部重复(同一模型反复生成相似内容),更严重的是存在跨模型同质化(不同开发者的模型倾向于生成极度相似的观点)。这种现象可能导致人类思想的长期单一化,并对AI系统的多样性和安全性提出了挑战。2. Gated Attention for Large Language Models: Non-linearity, Sparsity, and Attention-Sink-Free (大型语言模型的门控注意力:非线性、稀疏性与无注意力汇点) 这篇最佳论文提出了一种改进Transformer架构的简单而有效的方法:在缩放点积注意力(SDPA)之后应用一个特定于头部的Sigmoid门控机制。研究表明,这种简单的修改引入了非线性和稀疏性,能显著提升模型性能、训练稳定性和上下文扩展能力。特别值得注意的是,该机制有效缓解了“注意力汇点(Attention Sink)”问题(即模型过度关注某些特定token的现象),使模型在处理长文本时更加高效和稳健。3. 1000 Layer Networks for Self-Supervised RL: Scaling Depth Can Enable New Goal-Reaching Capabilities (用于自监督强化学习的千层网络:扩展深度可解锁新的目标达成能力) 这篇最佳论文挑战了“强化学习信号太弱,无法训练极深网络”的传统观念。作者展示了在自监督、无奖励的目标导向设置下,将网络深度从常规的浅层(2-5层)扩展到1000层以上,可以显著提升强化学习(RL)代理的性能。研究发现,极深的网络不仅提高了任务成功率,还涌现出了更复杂的行为策略。这项工作为训练超大规模的强化学习系统提供了新的范式,表明深度扩展在RL领域同样具有巨大的潜力。4. Why Diffusion Models Don't Memorize: The Role of Implicit Dynamical Regularization in Training (扩散模型为何不记忆:训练中隐式动力学正则化的作用) 这篇最佳论文从理论上解释了扩散模型为何能生成新颖的高质量图像,而不是仅仅记住训练数据。研究通过理论分析和实验发现,扩散模型的训练过程存在两个截然不同的时间尺度:模型首先进入“泛化阶段”,学习生成数据分布;随后才会进入“记忆阶段”,开始过拟合训练数据。这两个阶段之间存在一个宽阔的时间窗口,正是这种隐式的动力学正则化机制,使得即使是高度过参数化的模型也能在不记忆具体样本的情况下实现良好的生成效果。5. Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs Beyond the Base Model? (强化学习真的能激发LLM超越基座模型的推理能力吗?) 这篇亚军论文对当前热门的“强化学习提升推理能力”观点进行了批判性审视。通过大量实验,作者发现使用可验证奖励的强化学习(RLVR)虽然能提高模型的采样效率(即更快地找到正确答案),但实际上并没有赋予模型超越其基座模型(Base Model)的全新推理能力。分析表明,RL模型生成的正确推理路径本质上早已存在于基座模型的分布中,RL只是放大了这些路径的概率,却同时也牺牲了探索性,导致在长时间采样下(大k值passOptimal Mistake Bound for Transductive Online Learning (直推式在线学习的最佳错误界) 这篇亚军论文解决了一个困扰学习理论界30年的开放性问题。研究者确立了直推式在线学习(Transductive Online Learning,即学习者可以预先看到未标记的测试数据序列)与标准在线学习之间的本质区别。论文证明了直推式设置下的最佳错误界为$\Theta(\sqrt{d}),而标准设置下为\Theta(d)$,两者之间存在二次方级别的差距。这从理论上严格量化了未标记数据在在线学习中的巨大价值,并提出了一种达到该最佳界限的算法。7. Superposition Yields Robust Neural Scaling (叠加机制产生稳健的神经缩放定律) 这篇亚军论文深入探讨了神经缩放定律(Neural Scaling Laws)的微观机制。作者提出“叠加(Superposition)”现象——即神经网络在有限的维度中表示超过其维度数量的特征——是导致模型Loss随规模呈现幂律下降的关键驱动力。研究发现,在“强叠加”状态下,由于特征向量之间的几何干涉,Loss会与模型维度呈倒数关系。这一发现不仅解释了Chinchilla等著名缩放定律的成因,也为理解大模型的内部表征机制提供了新的物理视角。