众力资讯网

今天,看到智谱新发了一篇技术blog,推荐搞AI Infra的朋友们可以去看看原

今天,看到智谱新发了一篇技术blog,推荐搞AI Infra的朋友们可以去看看原文,方向上很有前瞻性。

博客里提到,他们在GLM-5.1线上推理集群里,完成了新一代网络架构ZCube的落地。

在GPU、服务器和应用代码一行没动的情况下,集群整体推理吞吐提升了15%,首Token响应的尾延迟降了40.6%。

15%真很夸张了……因为对于一个服务上百万开发者的大模型API平台来说,同样的硬件投入,每秒能多响应15%的用户请求。放到万卡集群的规模下,光是省下来的网络硬件成本就在2.1亿到6.4亿元之间。

你可能会好奇,GPU没动,性能是从哪来的?答案是:网络。

1你可以把一个大规模推理集群想象成一个超级大的快递分拣中心,几千上万张GPU就是分拣员,每个人手速都很快。

但分拣员之间需要不停地传递包裹,比如这边处理了一半的数据要传给那边继续处理。传递包裹靠的就是中间那套传送带系统,也就是网络。

然而,当分拣员越来越多,传送带还是老设计,几千个人同时往中间扔包裹,传送带就堵了。这时候,你再加人也没用,因为瓶颈不在人,在传送带。

这就是今天大模型推理集群面临的真实困境。过去几年AI基础设施的竞赛,大家的注意力几乎全在GPU上,谁家卡多谁就牛。

但当集群规模扩展到千卡、万卡级别之后,一个问题开始浮出水面:每处理一次用户请求,集群内部需要持续、高频地互相传递大量中间数据。

网络的效率上限,直接决定了这些GPU到底能发挥出多少真实算力。

智谱自己的实测数据也印证了这一点:同等GPU配置下,仅仅把网络带宽从200Gbps提升到400Gbps,推理总吞吐就能提升约10%,首响时延下降19%。

而且,这个规律随着集群规模扩大会越来越明显。很多公司花大价钱买来的GPU,可能有相当一部分算力是被网络瓶颈白白浪费掉的。

2问题的根源到底在哪?这就要说到一个用了二十多年的东西:Fat-Tree / Clos架构。

我简单解释一下。传统数据中心组网就像修公路,用的是分层堆叠的方式。最底层是GPU直连的小路,往上一层是汇聚的大路,再往上是核心的高速公路。数据要从一张GPU传到另一张,得先上高速再下高速,中间经过好几层交换机。

这套架构在互联网时代运行得很好,是因为那时候的流量模式比较均匀,大家都在刷网页、看视频,数据流向相对稳定。在AI训练阶段也基本够用,因为训练的通信模式比较规则。

但大模型推理带来了一种完全不同的流量模式。随着Prefill和Decode分离部署成为主流,集群内部的数据传输变得高度动态且不对称。不同用户的请求长短不一,处理时间有快有慢,数据在GPU之间的流向像水一样随机波动。

传统的分层架构面对这种流量时,会出现一个靠调参解决不了的结构性问题:流量会被拓扑关系天然地推向同几台交换机、同几条链路,形成热点堆积和链路拥塞。

还是用刚才快递中心的比喻。以前大家寄的包裹大小差不多、目的地也比较集中,传送带设计成几层中转就够了。但现在每个包裹大小不一样,目的地随机分布,而且每秒都在变化。

所有包裹还是得经过中间那几个大型中转站,中转站就成了瓶颈。你把传送带加宽也没用,因为问题出在路线设计上。

3智谱这次做的ZCube,做的事情是重新设计了这套路线。

ZCube最大的突破,在于推翻了沿用二十多年的Clos分层堆叠组网逻辑,改成了完全扁平化的GPU互联方式。通过一种叫做单轨加多轨混合接入的拓扑设计,确保全网任意两张GPU之间有且仅有一条最优路径。

不需要绕路,不需要层层中转,从架构层面实现了全网交换机的理想负载均衡。

同理,如果每个包裹从起点到终点只有一条最优路线,而且这些路线天然分散在不同的通道上,就不会有几千个包裹同时挤在一个中转站的问题了。

拥塞不是靠更好的调度算法消除的,而是从根上就不让它产生。

这个架构上的思路转变,才是ZCube真正的突破点。

落地效果也很直观。在千卡级GLM-5.1线上推理集群中,ZCube和传统ROFT架构做了对比测试。GPU型号、软件栈、业务代码全部保持不变,只换网络架构。

结果:交换机和光模块硬件成本减少了33%,GPU平均推理吞吐提升15%,TTFT P99降低40.6%。

省了三分之一的网络硬件钱,性能还更好了,这在基础设施领域是很少见的,因为通常降本和提效是两个互相矛盾的目标。

值得一提的是,这项技术还发表在了网络领域的顶级学术会议ACM SIGCOMM 2025上,评审给出的评价是:这项工作显著改变了整个行业对网络的认知方式。

4比较有意思的是,几乎在同一时间,OpenAI联合NVIDIA、AMD、Intel、Microsoft、Broadcom五大巨头,发布了一个叫MRC的新型网络传输协议,并且已经部署在他们最大规模的超算集群中。

这两个技术其实解决的是同一个问题,但切入角度不同。MRC在协议层发力,通过多路径并发传输来对抗网络拥塞;ZCube则在架构层动手,从拓扑设计上直接消除拥塞产生的根源。

对于正在大规模建设AI基础设施的云厂商、模型公司和智算中心来说,这可能意味着组网方案的采购逻辑将发生结构性变化。

高端交换机的需求会向更少层级、更大端口密度的方向演进,光模块的需求会向更高速率集中。800G光模块、高密度以太网交换机这些细分赛道,可能会迎来新一轮需求释放。