众力资讯网

3万张卡如何同步思考?揭秘AI超级大脑的神经网络 想象一个场景:3万人一起合唱一

3万张卡如何同步思考?揭秘AI超级大脑的神经网络 想象一个场景:3万人一起合唱一首歌,如果听不到彼此的声音,各唱各的,会是什么灾难现场? 大模型训练就是这个道理。3万张GPU卡要同时计算、实时交换数据,就像3万人必须精确对齐每个音符。而连接这些GPU的神经网络,就是今天要聊的高速互联网络。 这里面有个核心概念叫Spine-Leaf(脊叶)架构。传统网络像一棵树,数据要先汇聚到树干再到树顶,容易堵车。而Spine-Leaf像一座设计精良的体育馆——每片Leaf交换机(看台)都直接连接到所有Spine交换机(空中通道),任意两个座位(GPU)之间的路径长度都一样,都是2跳。 这意味着什么?低延迟+均等带宽。没有谁离得更远,没有谁被歧视。 更变态的要求是:不能丢包。AI训练用RDMA协议,让GPU之间“内存直连”,绕过CPU。但RDMA有个致命弱点——一旦丢包,就要重传,几千张卡都得等。哪怕0.01%的丢包率,也能让训练吞吐量断崖式下跌。 曙光的解决方案叫iLossless智能无损网络+SuperTunnel技术。不用传统的PFC流控(容易引发连锁瘫痪),而是用基于信用的机制,从根源上规避拥塞。网卡端到端时延0.93微秒,交换机转发260纳秒,快过眨眼一瞬间。 技术人常说网络是算力的血管。在这个故事里,这些血管不止是粗,还懂得智能调度、自动避障。3万张卡就这样被组织起来,像一台巨型计算机般“同步思考”。 硬核科普 scaleFabric 中科曙光