众力资讯网

SGLang 团队的新发的官博:在几秒内更新 1T 参数——大规模分布式强化学习

SGLang 团队的新发的官博:在几秒内更新 1T 参数——大规模分布式强化学习中的 P2P 权重传输地址:www.lmsys.org/blog/2026-04-29-p2p-update/

我们在 SGLang 中引入了一种基于 RDMA 的点对点权重更新机制,用于强化学习工作负载,作为传统 NCCL 广播方法的补充,并兼容所有主流开源模型。通过利用源端 CPU 引擎副本以及通过 Mooncake TransferEngine 的 P2P RDMA 传输,我们将 1T 参数的 Kimi-K2 权重传输速度提升了 7 倍(53 秒 → 7.2 秒),代价是在 CPU 内存中每个训练 rank 上增加一个推理引擎副本(32G)。这些优化最大限度地减少了网络冗余,使推理服务器能够显著更快地恢复 rollout。”AI创造营How I AI