AI计算集群规模的不断扩大,如何保持算力的线性扩展,这是一个世界性的难题。以并行计算的方式,将模型参数与数据拆分到多个GPU上协同处理。这样虽然可充分利用多GPU算力,但是同时也带来了密集而频繁的数据交换需求。相比传统通用计算,这类任务对网络带宽的要求通常要高出两个数量级。
除此之外,大模型训练中的数据同步具有明显的周期性,这意味着任何一个环节的性能短板——无论是链路拥塞还是设备故障——都可能成为集群的瓶颈,从而影响整个任务的进度与稳定性。
要确保集群算力能够随规模扩展而近似线性增长,就必须最大限度地消除这些网络短板,构建能够长期维持高带宽、低延迟和稳定性能的互联体系。显然,传统网络在设计之初并未针对如此密集的GPU间通信场景进行优化,难以在此类高强度AI负载下保持高效。
因此,需要引入一种以GPU为核心的全新网络架构。这种架构以满足GPU间高速通信为首要目标,从拓扑设计、协议选择、链路管理到拥塞控制,均针对AI的特点进行专门优化。
全球范围内的工程难题无法单靠硬件堆叠解决,必须依赖一系列体系化的技术架构创新,包括拓扑优化、协议演进、链路管理与智能调度等方面的突破。
在这场AI变革中,在大规模GPU相互连接,计算与网络紧密交织,性能不再是一个单一的概念。谁能率先构建出具备长期演进能力的高性能网络互联方案,谁就有可能在未来的算力竞争中占据决定性优势。
面对挑战,在孙凝晖院士提出的C体系技术路线指引下,早在2022年7月,阿里云和中国科学院计算技术研究所联合开启高通量以太网(ETH+)协议的制定。此后一年,2023年7月,由阿里云和计算所发起的『高通量以太网联盟』应运而生。目前,『高通量以太网联盟』会员单位已经超过50家,涵盖云厂商、芯片厂商、系统集成商、科研院所等相关单位。
AI网络进入大争之世,各自为战,还是联盟合作?『高通量以太网联盟』致力于制定面向AI智算场景的高通量以太网协议,推动国内智算网络标准化,并积极融入国际智算网络组织,打造开源开放融合共赢的产业生态。
在Scale out阶段,『高通量以太网联盟』最先提出构建面向AI智算领域的以太网生态,最先实现Scale-Out网络协议的收敛、协议标准发布、及芯片化落地。比如,网卡芯片(2*200G 自研网卡芯片)、交换芯片(25.6T 自研交换芯片)、硅光芯片(1*400G 硅光芯片)等成果;同时,基于阿里云HPN(High-Performance Networking)架构体系,实现全国产的落地方案。
2025年,『高通量以太网联盟』伴随着全国高性能计算学术大会迈上新台阶,努力促进全国产化完整产业链的形成。Scale-Out场景的芯片化落地及国产解决方案已经完成关键性突破。
随着战局的推进,超节点走进数据中心组网,Scale up场景成为舞台C位。在Scale-Up场景,『高通量以太网联盟』促进产业共识,推动协议制定和原型验证,首先提出并始终坚持Scale-Out和Scale-Up网络融合发展的理念,并基于以太网大芯片容量和光互连构建全解耦的UPN(超性能网络)架构解决方案。
2025年8月14日,暖城鄂尔多斯,高通量以太网(ETH +)联盟年度发布会同期举办。
本次发布会涵盖Scale-Up和Scale-Out网络场景,分别发布了:
(1)白皮书:高通量以太网(ETH+)协议(1.1)联盟标准重磅发布;
(2)网卡芯片:全量支持高通量以太网(ETH+)特性的首款国产400G智能网卡芯片;
(3)交换芯片:支持高通量以太网(ETH+)关键特性的首款国产25.6T交换芯片;
(4)硅光芯片:支持高通量以太网(ETH+)ERack+、ORack+的国产硅光芯片;
(5)高超柜(ERack+): 首款高通量以太网(ETH+)64 超节点;
(6)UPN 512: 基于高通量以太网(ETH+)光互联的超节点解决方案。
其中,高超柜在整体架构设计上有如下的核心考量和特点:
1、高超柜在设计之初就定位了高密高带宽高速率,相比其他Scale up技术方案,如NVlink、UAlink等,以太网交换芯片具有大带宽,大Radix,高速率的优势。
2、超节点内部GPU和CPU的配比由于芯片的性能差异以及不同业务需求会存在不同,高超柜支持CPU和GPU解耦和配比灵活调配,CPU 与GPU解耦。而在非解耦方案下,CPU和GPU共同位于Compute Tray内。
3、高超柜的重要目标之一就是要成为一个开放的系统,以开放架构支持高通量以太网生态的芯片和系统快速落地;从机柜到Switch tray、Compute tray,均为开放解耦思想。不同的芯片只要根据规范来提供或设计模组,可快速在高超柜上适配和集成,快速获取性能数据,快速产品化。
4、高通量以太网联盟扎根国内生态,支持国产化是高超柜的重要考量之一,关键部件选择上均考虑了国产化,为国产化出一份力。
以机柜为单位可整体交付和部署,是当今主流的超节点系统方案。高超柜是高通量以太网联盟针对百卡规模超节点的超高密度开放超节点系统方案。
联盟认为,Scale-Up场景需阶段性推进的策略。
第一阶段,2025年8月发布高通量以太网协议1.1,以及ERACK+,并已经完成ERack+ 64原型系统的验证;
第二阶段,推动UPN新型系统架构完成设计和标准制定,构建基于以太网光互联技术的分布式可扩展系统。
AI格局正在快速重塑,不同企业的私有协议与联盟此起彼伏,生态分化明显。在这种背景下,以太网凭借长期积累的生态与广泛的兼容性,依然展现出独特的规模优势。为了将以太网的规模优势进一步转化为产业竞争力,高通量以太网联盟开始承担起推动国产化与体系化落地的使命。高通量以太网联盟将不忘初心,通过打造具备国际竞争力的智算网络,实现AI智算大集群到AI智算大算力的质变。