陈天奇教授新书，现代 GPU 编程 For MLSys

2026-06-26 15:21:30 智能机器之心科技

陈天奇教授最近在 CMU ML Systems 课程里新增了一个迷你系列，专门讲现代 GPU 编程 for ML Systems，现在把课程精华打包成在线免费书对外开放了！

这本书到底讲了什么？（敲重点）
这不是普通的 CUDA 入门，而是直奔 Blackwell 的高性能 kernel 开发，目标是帮你写出 LLM 训练/推理里真正能跑快的核心内核（Attention、GEMM、MoE 等）。

全书采用阶梯式实战教学，从硬件心智模型开始，一步步升级到 SOTA 技巧：
🔸 Part I：理解 GPU 硬件
GPU 执行模型、Roofline 性能分析、数据布局（Data Layout）与 Swizzling（避免 bank conflict）、TMA 异步数据搬运（支持 3D tiling）、Tensor Core 、TMEM 新内存、mbarriers 异步协调、Cluster Launch 等 Blackwell 新特性。

🔸 Part II：TIRx 编程模型概述
用 Python DSL 写 kernel，降低学习门槛。

🔸 Part III：GEMM 从基础到 SOTA
从最简单的 single-tile GEMM 开始，逐步加上： K-loop 累加 → 多 CTA 空间 tiling → TMA 异步加载 + 软件流水线 → Persistent Kernel + Tile Scheduler → Warp Specialization（生产者-消费者分离）→ 2-CTA Cluster、多消费者等高级技巧。最后给出端到端性能对比。

🔸 Part IV：Flash Attention 4
用前面所有技巧完整实现一个现代 FlashAttention 内核，包括两个 MMA 阶段、online softmax rescaling、causal masking、GQA 支持、tile scheduling 等，详细对比和纯 GEMM 的区别。

核心理念：光知道 trick 不够，必须懂硬件（内存层次、异步、重叠计算与搬运、layout），再结合实战代码一步步优化。

总体来说，这是 2026 年非常硬核但教学友好的一份资料，图文+可运行代码+互动demo结合得很好，感兴趣的冲。（地址放图3了）

阅读：1 点赞：0

众力资讯网

陈天奇教授新书，现代 GPU 编程 For MLSys

热门分类

陈天奇教授新书，现代 GPU 编程 For MLSys

猜你喜欢

热门分类