这次张小珺对罗福莉的3.5个小时访谈最被忽略的不是”中国离 Anthropic

这次张小珺对罗福莉的3.5个小时访谈最被忽略的不是”中国离 Anthropic 只剩三个月”——而是罗福莉随口说的那个 3:1:1 算力分配公式。我先把原话贴出来。访谈聊到 1T 参数模型未来的算力配比时，她原话是这么说的：“For 研究、For Pre-train 和 For Post-train，我自己觉得一个非常合理的卡的比例可能是 3:1:1。Pre-train 和 Post-train 投入的算力应该是相当的，而研究的比例应该至少是你正式起训练卡总量的还要多一点——你要额外留更多的卡来做研究。”我去翻了一晚上，绝大部分二手转述都把这一段一笔带过，挑出去讲的都是「中国 AI 只剩三个月差距」「OpenClaw 改变 Agent 范式」这种适合做标题的句子。但真正决定接下来一年中国大模型走向的，是这个 3:1:1。这个公式背后是 MoE+RL 已经训不动了旧时代的算力分配，是 3:1，甚至 5:1，全砸预训练。GPT-4 那一代就是这样训出来的。罗福莉这次说的 1:1，意思是预训练和后训练的卡数相当——这本身已经是行业拐点信号。但更狠的是前面那个 3。研究阶段要烧的卡，比正式起训练的卡总量还要多三倍。听起来很奢侈。我去查了一下她自己 2025 年 10 月 14 日挂在 arXiv 的论文（编号 2510.11370），发现这件事有具体的技术原因。这篇论文是小米 + 北大联合发的，提出的方法叫 Rollout Routing Replay（R3），专门解决一个问题：MoE 模型做强化学习后训练时，会崩盘。为什么会崩？现代 RL 训练框架要用两个引擎：一个 inference 引擎跑 rollout，一个 training 引擎跑反向传播。Dense 模型这两个引擎产生的 token 概率分布很接近，KL 散度小到可以忽略。但 MoE 多了一层路由器——inference 阶段选中的几个专家、和 training 阶段被选的几个专家可能根本对不上号。同一个 token 在两个引擎里走的就不是同一条计算路径。这种漂移在短训练里看不出来，一旦放到长 trajectory 的 RL 训练里，KL 散度会一路飙到把训练流程直接撕开。论文里给的数字：MoE 模型的训练-推理 KL 散度是 1.5×10⁻³，稠密模型只有 6.4×10⁻⁴。R3 的解法很简单粗暴：把 inference 阶段算出来的路由 mask 直接缓存下来，training 阶段强制重放——确保两个引擎选到完全一样的专家。应用 R3 之后，MoE 的 KL 散度从 1.5×10⁻³ 拉回到 7.5×10⁻⁴，几乎赶上稠密。GRPO+R3 在 RL 评测上平均 68.05 分，比 GSPO 高 1.29 分。这不是一个边角优化，是 MoE 跑 RL 的生死线。所以 3:1:1 真正的含义是罗福莉那句”研究的比例应该至少是你正式起训练卡总量的还要多一点”，潜台词是：1T 以上参数的 MoE，你必须在起训前先用 3 倍 GPU 量把所有路由崩盘点扫干净。她在访谈里的另一句话佐证了这个判断：“很多人把 Loss Spike 当作正常的训练波动，但我们团队不允许这样。我们尽量让它没有。”这是研究员对工程稳定性的洁癖——也是从 DeepSeek 带过来的洁癖。要追求”Loss Spike 是零”，你得在起训前用海量小规模实验把每个潜在不稳定点都摸过一遍。GRPO 在 Dense 上一招鲜，到 MoE 时代已经不够了。R3 论文是这种方法论的第一个公开物证。雷军的千万年薪买的不是一个人这是我看完访谈最反直觉的一个判断。绝大部分稿件把罗福莉写成”95 后天才少女”“DeepSeek-V2 核心开发者”。这些没错，但低估了她真正的稀缺性。我去翻了一篇英文一手报道（网页链接关于 DeepSeek 组织揭秘的长文），里边有一段写得很直接：DeepSeek 大约 100 人的研究团队里，70% 以上是本/硕、70% 以上不到 30 岁，没有层级、没有打卡、没有 KPI、6-7 点全员下班。梁文锋自己定的逻辑是「人一天高质量工作只能维持 6-8 小时，疲劳判断错了浪费的算力比少干那两小时贵得多」。罗福莉到小米之后，原封不动复制了这套：“层级会预设这个层级上的人应该拥有超越所有人的智慧，这个界定非常奇怪。”这是她的原话。她带的小米大模型团队是无职级、无固定小组、没有 Leader 头衔——研究员可以从预训练流到后训练，自己想做什么就报名做什么。她甚至搞过一件”激进到出圈”的事：“我曾经下指令：第二天 OpenClaw 对话次数不超过 100 轮的人可以直接 Quit。”但她访谈里也讲了，没有人真的考核——目的只是逼大家在飞书群里互相 demo，让群体智能滚起来。雷军砸千万年薪买的不是一个 researcher，是一套已经被 DeepSeek 验证过的组织模板：扁平、跨职能、限制规模、不打卡、靠群体智能滚研究。她带过来，小米才有可能在 12 月发布会上把 MiMo-V2-Flash 这个 309B 参数 / 15B 激活的小模型在 SWE-Bench Multilingual 上跑过 GPT-5。模型可以挖人，组织模板挖不来，得靠人重建。一个被同行普遍漏掉的细节整个访谈里，罗福莉讲过一句话，几乎没有任何一个稿件展开过：“真正能达到 128K 到一兆长度的数据，大概只有两类：一类是 Code 数据，一类是书籍。书籍的信号太发散，Code 的文件之间的关联更强。”这一句话解释了 2026 年所有头部模型为什么都在死磕 Code：不是因为 Code 任务本身重要，是因为Code 是这个世界上唯一一种又长又密的训练数据。书是长但散；网页是密但短；只有 Code 能同时做到 1M 长度且依赖关系紧密。DeepSeek-V4、MiMo-V2、Claude 4.6 Opus 都先把 Code 训狠，再外延到其他场景，原因就在这里。这事在 SemiAnalysis 之前的复盘文章里有零碎暗示，但没有任何一个 researcher 像罗福莉这样一句话挑明。同行能直接抄走的部分如果你正在 1T 级 MoE 上跑强化学习，今晚就把 arXiv:2510.11370 这篇论文翻完。十几页，技术细节写得很清楚。GRPO 一招鲜跑 Dense 没事，跑到 MoE 上你迟早撞 Loss Spike——R3（或等价的路由 mask 重放机制）现在已经是必选项，不是可选项。预算规划层面，那个 3:1:1 听起来奢侈，本质是用研究阶段的卡，提前买下后期不崩盘的保险。一次 1T 级训练崩到一半要付出的代价，远比起训前多烧 3 倍卡做消融贵。至于”中国离 OpenAI 还有几个月”这种叙事，我觉得已经过期了。从 DeepSeek-V4、MiMo-V2、Kimi-K2、GLM-5.1 这一代开始，中美 1T 级模型基本同时在线，参数量这条战线已经被推平。下一轮拉开差距的，是谁的 Agent 框架和后训练范式更稳——这才是罗福莉用 3.5 小时反复在讲的事。

众力资讯网

这次张小珺对罗福莉的3.5个小时访谈最被忽略的不是”中国离 Anthropic

热门分类