华为昇腾专家解读要点:
1、芯片
- 920C:双Die,660 mm²×2,N+2工艺,算力最高,良率最低,只用于推理。
- 950:全新410 mm² Die,N+2工艺,双Die封装,算力比920C降约1/3,良率大幅提升,FP8原生支持,取消FP8→FP16转换损失,定价10万元/卡,重点客户8万元。
- 960:继续用410 mm² Die,四Die封装,算力×2,价格约15万元/卡。
- 970:Die回到660 mm²,工艺升到N+3,性能再提30%,四Die封装,价格24-25万元/卡。
2、存储
自研HBM明年Q1上市,性能目标HBM2e,先解决有没有,再追HBM3。
3、互联与集群
- 单卡带宽:950起步200 GB/s,后续960、970同档。
- 交换机:384卡集群用256口400G;8000/15000卡集群标配512口800G交换机,直接上800G光模块。
- 协议:UBLink+EB,全链路开源,覆盖CPU-NPU-GPU-内存,热迁移、内存池化、毫秒级故障切换全部落地,3-4年内部打磨,现可直接复制到15000卡。
- 集群规模:950验证8000卡,960/970直接拉到15000卡,理论上限远高于此。
- 训练定位:384卡只能做Fine-tune/RL,预训练必须8000卡起步,这是制程落后下的现实选择。
4、产品路线
- 架构:950/960/970同时提供ASIC(昇腾Core)和GPGPU两种子型号,分别对应CANN生态和Cuda兼容生态,客户自选。
- 命名:研发内部按920C→920D迭代;市场对外直接跳950/960/970,方便商业宣传,实质同一套东西。
- 出货:今年920C约60万颗;明年920C继续60万颗,950系列40-50万颗,总量100-110万颗。
5、价格
950卖8-10万,960卖15万,970卖24-25万,阶梯清晰,没有议价空间。
6、与寒武纪HSL区别
HSL只做CPU-CPU;UBLink做全设备统一总线,更底层,已开源。
7、大集群必要性
N+2制程单卡算力见顶,只能靠堆规模补训练短板,成本再高也得做,否则无法进入预训练市场。
8、生态
CANN继续迭代,同时给出Cuda兼容版换客户上手,开源库、算子、编译器全部放出,三年为期,目标把用户量从十万拉到百万级。
9、鲲鹏搭配
8000卡集群里昇腾950与鲲鹏950按3:1或4:1混布,CPU算力同步扩容,协议一致,无缝协同。
10、核心壁垒
硬件只是门票,协议+软件栈才是大规模集群的生死线,延迟、容错、资源碎片、热迁移全靠它解决,通用计算时代用不上,现在非有不可。