众力资讯网

谷歌重磅论文:Transformer 的拓扑困境

大模型频频在多轮对话中“断片”或前后矛盾,其根源并不在算力,而在于一个被长期忽视的硬件级底层硬伤。

Google DeepMind 团队(Michael C. Mozer、Shoaib Ahmed Siddiqui 、Rosanne Liu )发表了重磅论文 《The Topological Trouble With Transformers》(arXiv:2604.17121)。

论文首次针对当前大模型(如 Transformer 架构)在长文本推理、多轮对话和复杂任务中频频出现的“降智”、“精神分裂”等现象,从拓扑结构的角度给出了深刻的理论解释和破局方案。

标准 Transformer 纯前馈结构存在根本拓扑问题:无法可靠跟踪动态信念状态!随着序列推进,状态表示被推向更深层,最终浅层无法访问,导致上下文翻车、多轮不一致、长期推理失效。

论文提出 2D 分类法(深度 vs 步长循环 + 输入/循环步比例),梳理 looped Transformer、SSM/Mamba 等路径,并指出 coarse recurrence、多阶段训练等可行方向。

真正长期认知连贯性,需要修复架构,而非只堆上下文或 CoT。

长文本窗口和外显慢思考只能治标,无法让模型真正拥有低能耗且极度连贯的隐式意识流。

如果你是大模型架构设计、下一代 AI Agent 以及长序列动态系统追踪领域的从业者可以重点看看这篇工作~(论文可以直接download哦~ 👇🏻)