分布式训练核心术语全览，系统梳理多维度并行与优化方法，助力深入理解与高效实践：•

分布式训练核心术语全览，系统梳理多维度并行与优化方法，助力深入理解与高效实践：

• 并行策略

- 数据并行：模型复制，数据拆分，梯度同步，扩展批量大小，通信开销与模型规模相关。

- 模型并行：跨设备拆分模型层，顺序传递激活与梯度，适合超大模型，需精细划分与通信优化。

- 流水线并行：分层分设备处理微批次，重叠计算与通信，减少空闲等待。

- 张量并行：拆分单层权重和激活，局部计算结合集体通信，实现参数极致分片。

- 混合并行：结合多种并行策略（2D、3D），打破单一限制，支持千亿级参数训练。

• 内存优化技术

- 参数分片（Sharding）：切分权重、梯度、优化器状态，显著降低单卡内存占用。

- ZeRO系列（1到3阶段）：分层切片优化器状态、梯度及参数，最大化显存利用。

- FSDP：PyTorch的全分片数据并行，自动分片和合并，配合CPU卸载扩展大模型训练。

- 激活检查点：选择性保存激活，牺牲额外计算换内存释放，支持更大批量和模型宽度。

- CPU与NVMe卸载：多层内存体系延展，突破GPU显存瓶颈，适配千亿参数规模。

• 通信模式与集体操作

- All-Reduce/All-Gather/Reduce-Scatter等确保跨节点梯度同步和参数重组。

- 广播与点对点通信支持模型初始化与细粒度数据交换。

- 拓扑感知调度优化通信路径，减少延迟和带宽瓶颈。

• 训练优化技巧

- 异步与弹性训练：动态增减节点，容错与资源弹性利用。

- 梯度累积、多精度训练提升训练效率与稳定性。

- 梯度压缩、稀疏优化与量化感知训练减少通信负担并提升推理效率。

- 计算与通信重叠，智能参数分片提升吞吐和扩展性。

• 规模与效率衡量

- 弱强扩展性权衡，关注时间-性能平衡。

- 网络拓扑与异构硬件支持实现近线性加速与资源最大化利用。

- 训练时间（TTT）与样本吞吐率为核心指标，指导系统调优。

• 基础概念

- 节点、工作进程、加速器定义，批量大小分层理解。

- 检查点与容错机制保障训练稳定性与恢复能力。

- 通信后端及多程序多数据（MPMD）支持复杂分布式场景。

深刻理解并行范式与资源管理本质，是突破模型规模与训练效率瓶颈的关键。分布式训练不仅是技术集成，更是一套系统级优化的方法论，指导设计高效、可靠、可扩展的深度学习训练体系。

详情🔗 distributedlexicon.com

分布式训练深度学习模型并行内存优化人工智能高性能计算

0 阅读：0