SGLang 团队的新发的官博：在几秒内更新 1T 参数——大规模分布式强化学习

2026-04-30 09:41:02 蚁工厂科技

SGLang 团队的新发的官博：在几秒内更新 1T 参数——大规模分布式强化学习中的 P2P 权重传输地址：www.lmsys.org/blog/2026-04-29-p2p-update/

我们在 SGLang 中引入了一种基于 RDMA 的点对点权重更新机制，用于强化学习工作负载，作为传统 NCCL 广播方法的补充，并兼容所有主流开源模型。通过利用源端 CPU 引擎副本以及通过 Mooncake TransferEngine 的 P2P RDMA 传输，我们将 1T 参数的 Kimi-K2 权重传输速度提升了 7 倍（53 秒 → 7.2 秒），代价是在 CPU 内存中每个训练 rank 上增加一个推理引擎副本（32G）。这些优化最大限度地减少了网络冗余，使推理服务器能够显著更快地恢复 rollout。”AI创造营How I AI