众力资讯网

英伟达Rubin CPX引出的产业真相:Scale Out网络是AI集群不可或缺底座

文/黄海峰的通信生活当下在AI领域,大规模输入数据进行高效、低成本处理的问题,成为关注热点。AI大模型处理百万行代码、生

文/黄海峰的通信生活

当下在AI领域,大规模输入数据进行高效、低成本处理的问题,成为关注热点。AI大模型处理百万行代码、生成小时级视频等长上下文任务时,算力需求与成本压力呈指数级增长。这导致计算基础设施面临性能瓶颈与性价比失衡的双重挑战。

行业如何应对挑战?网络作为连接计算节点的关键纽带,是解决该挑战的关键,且正站在Scale Out(横向扩展,指增加服务器节点,构成分布式架构)与Scale Up(纵向扩展,指增强单个服务器系统资源)两条路线的十字路口。

然而,我们看到AI基础设施巨头给出了不一样的答案。近日,英伟达Rubin CPX系列GPU以“百万级令牌上下文处理”和“30至50倍投资回报”的亮眼数据亮相,宣告专为长上下文推理优化的新路径:它果断取消Scale Up设计,直言行业已从“唯性能论”转向“性价比最优解”。

这让不少人好奇,当下不是有观点认为,超节点发展迅猛,Scale Up依靠提升单节点硬件性能(如增加显存、算力),可以应对长上下文任务,或成发展方向,甚至将替代Scale Out。

英伟达这是反其道而行之,还是说行业走向异构集群时Scale Up已无价值?Scale Out与Scale Up难道注定就是“非此即彼”的关系?

拨开技术迷雾,我们不难发现,随着异构集群逐渐成为未来AI基础设施的主流形态,Scale Out网络绝非可被替代的“备选方案”,而是支撑整个AI集群运转的“通信底座”,与Scale Up网络更将形成相辅相成的协同关系,与Scale Up携手发展才是正确方向。

从性能崇拜到性价比为王:Rubin CPX折射智算产业新趋势

纵观AI智算产业的发展历程,其本质上是计算资源从集中到分布式,再到精准分工的演进史。早期AI任务依赖单卡单服务器即可完成,网络仅需承担基础的数据传输功能。

随着深度学习模型参数从百万级跃升至万亿级,单节点算力捉襟见肘,服务器集群成为主流。此时,网络开始需要支撑多节点间的协同计算。

而超节点架构的出现,通过在单一机架内集成数十甚至上百块GPU,将计算密度推向新高度。比如英伟达推出的GB200 NVL72超节点,由72张英伟达GB200 GPU互联组成。在采用同样GPU的情况下,相比于把8卡服务器通过网络互连的传统方式,NVL72这个超节点的吞吐量可以比非超节点提升3倍以上。

但随着超节点内GPU数量激增,节点内部的互联网络带宽与时延性能,成为制约单节点计算效率的关键瓶颈。

英伟达Rubin CPX系列的发布,标志着产业进入“精准优化”的新阶段。与追求全能性能的传统GPU不同,Rubin CPX采用成本高效的单片晶圆设计,集成128GB GDDR7显存与专用视频编解码硬件,在长上下文推理场景中实现3倍于GB300 NVL72的注意力机制加速,单机架即可提供8 exaFLOPS的NVFP4计算能力。

更关键的是,Rubin CPX通过“分解式基础设施”理念,将计算与内存资源高效分配,其1亿美元资本支出可带来高达50亿美元收入,彻底打破了“高性能必然高成本”的固有认知。

这种变革背后,折射出产业对AI全生命周期成本的深刻反思。训练阶段需要处理PB级数据与万亿次参数更新,推理阶段则面临高并发、低延迟的实时响应需求,单一架构难以适配全场景需求。

笔者认为,Rubin CPX的出现,不仅以“分解式基础设施”理念和场景化硬件设计,直观证明行业已跳出“一味追求高性能”的误区,更印证了“聚焦最优性价比”的发展新趋势。

这一变化表明,通过硬件专业化分工与资源精准匹配,实现性价比最优已成为行业共识。这种异构化、分工化的架构趋势,正从根本上重塑网络的角色定位。

网络演进的双轨制:Scale Out与Scale Up是协同而非替代

计算侧的架构变革必然驱动网络技术同步演进。早期,AI训练需要“十万级GPU一起干活”,计算任务像城市里分散在各个区域的人流,对网络的“覆盖广度”和“节点连接能力”要求陡增。

此时,Scale Out网络以“集团军”模式登场。它就像城市里的普通交通路网,不依赖单条“主干道”,而是通过增加道路条数(即网络设备数量)来提升整体通行能力,就算某几条路临时拥堵,整个交通系统依然能正常运转。

在AI训练中,Scale Out网络依靠优化,将数据并行(DP)、模型并行(TP)等技术所需的“十万级GPU大军”连接起来,确保All-Reduce等关键指令高效传达。

这种网络的核心优势很明显,就像不断拓宽路网一样,加几台中低端设备就能让集群规模“线性扩张”,成本不高还灵活,完美适配训练阶段“人多力量大”“规模决定效率”的需求。

可随着AI技术深入,推理等场景对网络的要求变了,需要数据“分秒必达”。这就对带宽和时延的要求严苛到“微秒级”。这时,Scale Up 网络以“特种部队”模式横空出世。

它不像 Scale Out那样的“人海战术”,而是专注升级“单个精英设备”的能力。这就好比为城市打造专属“快车道”,不仅把车道从“双向两车道”(10G 带宽)拓宽到“双向十车道”(100G、400G 带宽),还优化信号系统(硬件加速技术),让车辆(数据)通行时延降到微秒级。

笔者认为,两者的本质差异决定了其适配场景的互补性。从技术特性看,Scale Out以“广度”取胜,可扩展性强、成本低。Scale Up以“深度”见长,性能突出、架构简单但扩展受限且成本高昂。

从应用场景看,Scale up是训练阶段及推理decode阶段的重要支撑,负责连接海量GPU 节点完成大规模并行计算;Scale Out则更适合推理prefill阶段的高性价比需求。英伟达本次发布的CPX系列就是针对推理prefill阶段的高性价比,取消scale up。这种针对特定场景的取舍,并不能印证两者谁更有价值。

当谈及两种网络模式,我们就不得不提业界广为流传的“Scale Up会取代Scale Out”的观点。

在笔者看来,这种观点如同在谈及“城市交通”时,只认为城市需要快车道,不需要普通路网。这显然不全面。

从技术特性看,Scale Out是“广度选手”,像普通路网一样覆盖广、能容下大量节点;Scale Up是“深度选手”,像快车道一样速度快、性能强,但能覆盖的范围有限,成本也高。

此时再看两者关系,大家自然很容易发现二者根本不是“替代关系”,而是“搭档关系”。

比如英伟达Vera Rubin NVL144 Rubin CPX机架,就像一座规划合理的“交通枢纽”,用Scale Out铺好“普通路网”,让大量服务器能顺畅连接,再靠Scale Up建“快车道”,让核心节点的数据能高速传输,两者缺一不可。

未来,随着计算侧需求越来越精细,这两种网络会继续各司其职,Scale Out当“大管家”,管好AI训练的“大规模连接”;Scale Up当“急先锋”,满足AI推理对数据低时延的需求。

所以,我们可以肯定的是,两种网络携手,可以将网络架构打造成更高效的“交通系统”,而不是走向“非此即彼”的死胡同。

产业共识下的底座价值:Scale Out网络不可替代

随着异构集群成为AI基础设施的主流形态,Scale Out网络的底座地位愈发稳固。无论是技术特性与架构需求的匹配度,还是全球厂商的战略布局,都印证了其无法被Scale Up网络替代的核心价值。

首先,从技术本质看,异构集群的分布式特性与Scale Out网络天然契合。异构集群通过CPU、GPU、DPU等不同硬件的分工协作实现效率最优,这种架构要求网络必须具备灵活连接、负载均衡与故障冗余能力。

Scale Out网络的分布式架构恰好满足这些需求。其通过动态路由技术可实现计算节点的灵活组网,通过负载分担机制避免单点压力过大,通过多路径冗余确保某一设备故障时业务不中断。

相比之下,Scale Up网络依赖单节点性能提升,一旦核心设备出现故障,可能导致整个子集群瘫痪,难以适配异构集群的可靠性要求。

其次,从厂商实践看,全球主流玩家均将Scale Out网络作为战略核心。英伟达在推广Rubin CPX的同时,同步强化Spectrum-X以太网的Scale Out能力,通过ConnectX-9 SuperNIC与Dynamo平台编排,实现百万级GPU集群的高效互联。

Mellanox的InfiniBand网络虽以高性能著称,但仍通过Fat-Tree等拓扑结构强化Scale Out扩展能力。

再将视线转回国内,华为推出CloudEngine XH系列交换机,通过iMaster NCE智能管理系统实现万级节点的Scale Out部署。

我们不难发现,这些布局共同印证了一个结论,Scale Out网络是构建大规模AI集群的基础前提。

最后,从成本效益看,Scale Out网络是平衡性能与成本的最优解。AI产业的爆发式增长带来算力需求的指数级提升,单纯依赖Scale Up网络的高端设备升级,将导致成本随规模呈几何级增长 。

Scale Out网络通过标准化以太网设备与分布式架构,实现“按需扩展、线性成本”,在支撑集群规模从千级向万级跨越的同时,将单位算力的网络成本降低60%以上。对于追求性价比的AI企业而言,Scale Out网络的成本优势使其成为无法替代的选择。

笔者观察:携手同行,才能把握AI时代新机遇

如今,AI智算产业正站在从“规模扩张”向“质量提升”转型的关键节点,英伟达Rubin CPX的发布只是这场变革的缩影。

在异构集群成为主流的未来,Scale Out网络将如同城市的基础设施路网,支撑起整个AI生态的高效运转,而Scale Up网络则如同专属快车道,为关键场景提供性能加速。两者的协同共存将是网络架构的必然选择。

产业需要明确的是,Scale Out网络作为通信底座的核心地位,始终不可或缺。对于AI从业者而言,认清这一趋势,才能在基础设施建设中实现性能与成本的最优平衡,把握AI产业的下一波机遇。