这两天，看到千问C端应用团队的四篇论文，两篇中了ICML 2026，两篇中了AC

这两天，看到千问C端应用团队的四篇论文，两篇中了ICML 2026，两篇中了ACL 2026。

给不熟悉的朋友们介绍一下，ICML是机器学习领域最老牌的顶会，今年投稿量直接翻倍到了23918篇，卷得前所未有。

而ACL是NLP方向公认最权威的会议，今年也收到了12000多篇投稿，主会录取率只有19%。

能在这种竞争烈度下同时中稿，是真的有点东西的。

所以我很好奇，为什么这4篇论文能被选中，他们到底解决了AI领域的哪些问题？

带着这个疑问，我把四篇论文翻了一遍。

最直观的感受是，千问C端应用团队做研究的方式，和很多纯学术团队，不太一样。

他们每篇论文的出发点，都是从实际应用的角度出发，解决AI落地的真问题。很推荐大家有时间，可以把原文下载下来看一下。

1其中我印象最深的一篇论文叫ECHO: Elastic Speculative Decoding with Sparse Gating for High-Concurrency Scenarios，这篇论文还拿到了ICML Spotlight。

在两万多篇投稿里，只有536篇拿到这个标签，占比2.2%，几乎等同是评审委员会拍着桌子说「这篇必须让所有人看到」的级别了。

ECHO解决的最核心的问题是：为什么大模型一到高峰期就卡？比如，白天人少的时候模型回复飞快，但一到晚高峰就开始卡，有时候等个回复要好几秒。

这背后的技术原因，和投机解码（Speculative Decoding）这个方向有关。就是让一个小模型先快速猜出后面好几个词，然后大模型一次性验证，猜对的就省了，猜错的再纠正。

理想情况下，推理速度能快不少。

这个方法在实验室里确实效果很好，可一旦放到真实的高并发生产环境里，经常会翻车。

因为当几百上千个请求同时涌进来，GPU的算力是有上限的。这时候你还给每个请求都生成一大堆候选词让大模型挨个验证，算力瞬间就打满了。

投机解码不但没加速，反而会因为验证计算的开销拖慢整体速度。

这也就是为什么，投机解码在生产环境里一直没能大规模铺开。

但ECHO跳出了过去的思路，把投机采样从一个算法技巧，升级成了一个资源调度问题。

他们是怎么做的呢？

第一步，找甜点区。

模型判断一个词该不该接受的能力，在树的不同深度上并不均匀，有几个关键节点特别准，其他位置反而容易误判。所以ECHO只在这些关键节点做决策，减少噪声。

第二步，弹性预算调度。

ECHO把整个Batch里所有请求的候选词，当作一棵统一的超级树来管理，设定全局验证预算上限。

某个请求的模型置信度高，预算就往深度上倾斜，让它多猜几步，一次验证搞定更多token。某个请求的置信度低，预算就往宽度上倾斜，多给几个候选词提高命中率。

高并发的时候，那些被截断的请求甚至会把省下来的预算让渡给更有潜力的请求。

最终结果是，在Qwen3-235B这样的工业级大模型上，ECHO的端到端吞吐量比当前最优方法最高提升了36%，实际墙钟时间加速达到5.35倍。

换句话说，同样的算力，能同时服务更多的人，每个人等得更短。

对任何做大模型C端产品的团队来说，都是实打实的降本增效。

另一篇叫MARCH，入选了ACL主会。

MARCH解决的核心问题是：为什么大模型总是一本正经地胡说八道？

幻觉，其实也是大模型的老问题了。

之前行业内试了很多办法，比如通过RAG，让模型检索文档再回答。

但问题是，模型在验证自己答案的时候，容易掉进一个循环——我已经生成了这个答案，检查的时候也会下意识地往答案上靠，把错误的信息验证成了合理的，造成自证偏差。

针对这个问题，MARCH框架的解法是：刻意制造信息不对称。

它把任务拆成三个角色来完成。

-Solver负责生成初始答案。

-Proposer负责把这个回答拆解成一条条可以独立验证的原子命题，变成问答的形式。

-Checker则在完全看不到Solver原始答案的情况下，只根据参考文档独立回答这十个小问题。

这个设计的精妙之处在于：Checker根本不知道Solver说了什么，它只能靠文档说话，没有任何被原始答案带偏的可能。

然后是强化学习阶段：只要Solver的某一个断言和Checker的独立判断不一致，这条路径的所有奖励都扣掉。一票否决，没有例外。

这种极端严苛的约束，强迫模型在训练时真正内化查证逻辑。

最终，一个只有8B参数的模型，在事实准确性上能跟闭源大模型掰手腕。

另外两篇论文我简单提一下。

SiameseNorm解决的是Transformer底层架构里的一个老矛盾：训练稳定的结构表达力不够强，表达力强的结构容易训练崩溃。

它用双流并行设计让两条路各司其职，一条稳梯度，一条提表达力。实验里，算术和顺序推理准确率提升了将近41%。

RiT解决的是另一个痛点：大模型在推理开放性任务时，思维过程容易乱飘，字数失控，或者陷入循环。RiT把细粒度的评分量表引入强化学习的中间思考环节，让模型的推理轨迹有章可循，而不是在黑盒里随意发散。

这两篇虽然一个是底层架构，一个是思维过程，但目标是一致的：把模型能力从理论上限往实际可用的方向拉。

4很多人可能会想，一个做C端应用的团队，为什么会去研究这些东西？

其实不管是高并发卡顿还是幻觉问题，都是做C端产品的团队经常要面临的用户投诉问题，都是从真实的应用痛点出发的。

背后更大的趋势是：AI行业的竞争正在从参数规模的军备竞赛，转向算法深度和工程实效的比拼。

四篇论文的代码也会陆续开源，相关技术会进一步沉淀到行业里。

另外听说千问C端应用技术团队目前还在大力招人，有兴趣的朋友们可以关注一下。

从这几篇论文的质量和选题方向来看，这个团队既在做前沿研究，又有足够大的真实场景来验证想法。如果你是做AI的，而且希望自己的研究成果不只是停留在论文里，确实可以看看机会。

众力资讯网

这两天，看到千问C端应用团队的四篇论文，两篇中了ICML 2026，两篇中了AC

热门分类