2.2 集群性能提升依赖跨尺度、多层次互联
在尺度定律的驱动下,SOTA模型的参数量以每2年410倍的速度增长、算力需求以每2年750倍的速度增长[12],遵循“摩尔定律”的硬件算力增长速度和显存容量增长速度远远无法满足模型训练的需求。因此,构建多芯互联集群成为大模型技术发展的必经之路,能够支持SOTA模型训练集群的规模也在短时间内从千卡向万卡发展,集群性能的实现将会受到显存带宽、卡间互联带宽、节点间互联带宽、互联拓扑、网络架构、通信库设计、软件和算法等多重因素影响,大规模加速计算集群的构建已经演变成为跨尺度、多层次的复杂系统工程问题。
从应用层面来看,大模型训练往往需要通过有机的组合多种分布式策略,来有效地缓解LLM训练过程中的硬件限制。对于基于Transformer架构的模型来说,常用的分布式策略包括数据并行、张量并行和流水线并行,各自的实现方式和所引入的集合通信操作有所不同。其中,数据并行和流水线并行的通信计算比不高,通常发生在计算节点之间。张量并行的核心思想是对Transformer Block中的两个核心单元——多头自注意力层和前馈神经网络层进行拆分,其中多头自注意力层按照不同的头进行并行拆分,而前馈神经网络层按照权重进行并行拆分。使用张量并行时,每个Transformer Block将在前向计算和反向传播时分别引入两次额外的All Reduce通信操作。与数据并行相比,张量并行具有更高的通信计算比,这意味着张量并行算法对计算设备间的通信带宽需求更高。因此,在实际应用中,一般把张量并行算法限制在单个计算节点内。如前文所述,随着大模型进一步向多模态、长序列、混合专家架构演进,分布式策略也随之更加复杂,序列并行和专家并行的引入,也带来了更多All Gather和All-to-All通信操作,与张量并行类似,需要计算设备间超低延迟、超高带宽的通信能力,从而进一步提高对单个计算节点或者说计算域的性能要求。
从硬件层面来看,互联的设计一方面需要满足算力高效扩展的需求,另一方面还要匹配并行训练集合通信对互联拓扑的要求。互联设计可以按尺度分为片上互联、片间互联和节点间互联。片上互联物理尺度最小、技术难度较高,需要采用芯粒(Chiplet)技术将多个Chiplet进行合封并建立超高速互联链路,领先的芯片厂商AMD、Intel、NVIDIA、壁仞科技等公司的产品都采用相关技术。以NVIDIA的B100芯片为例,由于逼近光刻工艺极限,芯片单位面积计算能力较上代只有14%提升,性能的进一步提升只能通过增加硅面积,但这又受到掩膜极限的限制。于是,NVIDIA在尽可能做大单晶粒面积的基础上,通过更先进的基片上芯片(Chip on Wafer on Substrate,CoWoS)工艺将两个晶粒整合到一个封装当中,之间通过10 TB/s NVLink进行互联,使得两个芯片可以作为一个统一计算设备架构(Compute Unified Device Architecture,CUDA)在GPU运行。由此可见,在当前工艺极限和掩膜极限下,通过先进封装和高速晶粒对晶粒互联可以进一步推动芯片性能提高,但是这条技术路线的封装良率和高昂成本也将会极大限制最新芯片的产能,影响芯片的可获得性。
相比片上互联,片间互联的技术成熟度更高、可获得性更优,通常这部分互联发生在单一节点或超节点内部,旨在构建多卡之间超高带宽、超低延迟的计算域,来满足张量并行、专家并行和序列并行极高的通信需求。目前,已经有NVLink、PCIe、RoCE(RDMA over Converged Ethernet)以及诸多私有互联方案。从互联速率来看,NVIDIA第5代NVLink单Link双向带宽从第4代NVLink的50 GB/s升级到100 GB/s,也就是说B100/B200片间互联双向带宽最高可以达到1 800 GB/s,AMD的Infinity Fabric最大可以支持112 GB/s 点对点(Peer-to-Peer,P2P)互联带宽。从互联拓扑形态来看,片间互联可以分为直连拓扑和交换拓扑两大类,直连拓扑的通用性更强、协议兼容性更高,如AMD MI300X、Intel Gaudi、寒武纪MLU系列等开放加速规范模组(OCP Accelerator Module,OAM)形态加速卡可以通过通用加速器基板(Universal Baseboard,UBB)实现8卡全互联,NVIDIA H100 NVL、AMD MI210、Intel Gaudi3(HL-338)等PCIe形态加速卡则可以通过桥接器实现2卡或4卡互联,直连拓扑的问题在于片间互联均分每卡的输入/输出(Input/Output,I/O)总带宽,导致任意两卡间P2P互联带宽较低,互联带宽的提升依赖于SerDes速率的升级,相较算力提升速度滞后。交换拓扑需要基于交换机(Switch)交换芯片,目前主流芯片厂商中只有NVIDIA提供基于NVSwitch的互联方案,所有GPU的纵向扩展(Scale-up)端口直连到NVSwitch以实现全带宽、All to All互联形态,这也是NVLink带宽远高于直连拓扑方案的原因。未来,随着单卡算力的提升以及单节点内加速卡数量提升,基于Switch芯片构建更高带宽、更大规模的GPU互联域将成为一种趋势,但是如何实现Scale-up网络的延迟优化、拥塞控制、负载均衡以及在网计算也将成为新的挑战。
节点间横向扩展(Scale-out)互联作用主要是为参数面网络中流水线并行和数据并行提供足够通信带宽,通常采用Infiniband或RoCE组成胖树(Fat-Tree)无阻塞网络架构,二者都能够通过多层组网实现千卡乃至万卡级集群互联,比如采用64端口交换机,通过3层Fat-Tree无阻塞组网理论上可以构建约6.6万卡集群,采用128端口交换机理论上可以构建约52.4万卡集群。从节点侧来看,Scale-out的设计分为外置网络控制器和集成网络控制器两种类型,外置网络控制器方案通用性更强,PCIe标准形态的网络控制器通常会按1∶1或者1∶2的比例与加速卡连接到同一颗PCIe Switch芯片上以实现最短的Scale-out路径,可以根据现有数据中心网络基础设施设计来灵活选择与之相匹配的网络控制器类型和数量组成远程直接内存访问(Remote Direct Memory Access,RDMA)网络方案,支持Infiniband卡、以太网卡以及定制智能网卡。集成网络控制器方案将网络控制器直接集成到加速卡芯片当中,比较有代表性的如Intel Gaudi系列,Gaudi2每颗芯片支持直出300 Gbit/s Ethernet Scale-out链路,Gaudi3将带宽进行了翻倍升级达到600 Gbit/s,计算和网络的同步在芯片内完成,无需主机干预,可以进一步减小延迟。数据中心内部的节点间互联方案已经相对成熟,但随着GPU集群建设规模的不断扩大,节点间互联方案的成本和能耗也在不断提升,在中等规模集群当中占比已达15%~20%。因此,需要面向实际应用需求,平衡性能、成本、能耗三大要素,最终实现全局最优的节点间互联方案设计。此外,大模型头部公司正在规划的具有百万卡级的集群,已经超出现有网络架构可扩展极限,而单一数据中心无法同时为如此规模的卡提供足够的电力支撑。未来,超大规模跨域无损算力网络将会是支撑更大规模模型训练的关键。
综上,随着大模型算力需求的增长,加速集群互联技术已经演变成为跨尺度、多层次的复杂系统工程问题,涉及芯片设计、先进封装、高速电路、互联拓扑、网络架构、传输技术等多学科和工程领域,需要以系统为核心,自上而下软硬协同设计才能获得最优的集群性能。
3 大模型算力基础设施高质量发展路径
随着SOTA大模型训练算力起点从千卡向万卡乃至更大规模演进,能源逐渐成为大模型发展遇到的主要瓶颈,在算力资源和电力资源的双重限制下,未来大模型的军备竞赛将会从“算力之争”演变为“效率之争”,优化算力供给结构,发展具有高算效、高能效、可持续、可获得、可评估五大特征的高质量算力已经成为当务之急。
算力效率的提升要围绕算力的生产、聚合、调度、释放形成一个完整的技术体系[12]。在算力生产环节,算力和显存带宽的设计失衡往往是导致算力效率损失的主要因素。因此,芯片“算力-显存”协同设计至关重要,需要以算力效率为目标来平衡芯片的计算能力和显存的运载能力,避免显存带宽约束下的巨大算力损失。在算力聚合环节,通过“算力-互联”协同设计和“算力-网络”协同设计,采用高、低速域分层互联架构,为芯片匹配合适的片间互联和节点间互联带宽,解决通信性能瓶颈,可以进一步提升芯片在实际业务模型下的MFU,提升集群层面投资回报率。在算力调度环节,通过全面的监控指标和异常检测快速定位软硬件故障,通过断点续训、故障容错等机制快速恢复训练,实现大模型长时间稳定训练,以此提升集群算力整体利用率,降低大模型整体训练成本。在算力释放环节,兼容主流生态,支持业界主流框架、算法和计算精度,能够在最短时间内利用最新的精度优化、显存优化以及通信优化上的算法创新成果发掘出有限算力的最大价值。
能源利用效率的提升需要以节能为目标,开展面向应用、软硬协同的集群方案设计,在高算效服务器系统硬件基础上,通过匹配实际可用算力规模的网络方案实现设计层面的集群功耗优化。进一步,通过部件、系统、机柜、数据中心多层级先进液冷技术的应用,结合供电、散热、制冷、管理一体化设计实现部署层面的能效提升,最终获得全局最优电源使用效率(Power Usage Effectiveness,PUE)。
此外,大模型算力基础设施已经成为推动信息产业核心技术发展的重要驱动力,需要聚拢核心部件、专用芯片、电子元器件、基础软件、应用软件等国内外产业链领先技术方案,加速构建分层解耦、多元开放、标准统一的产业链生态,降低对单一技术路线的依赖、避免烟囱式发展,通过产业链协同创新实现可持续算力演进和算力产业的健康发展。持续推动算力基建化,采用融合架构,通过硬件重构实现多元异构算力资源池化,提供多元、弹性、可伸缩扩展的算力聚合能力,通过软件定义实现资源池的智能高效管理,提供更高效、更便捷的算力调度能力,降低多元算力的使用门槛,实现算力普适普惠。最后,还需要建立以应用为导向、以效率为目标、全面科学的高质量算力评估标准,推动算力供给结构优化,促进算力产业良性发展。
4 结束语
在市场、资本、政策的联合驱动下,大模型快速向多模态、长序列、混合专家形态演进,参数量更加庞大、模型架构日益复杂,从而带来对更大规模算力和更复杂通信模式的需求。然而,算存失衡发展严重限制了算力利用效率,并带来了巨大的算力资源损失,实际可用算力规模增速难以满足应用发展需求。随着集群规模从千卡向万卡发展,跨尺度、多层次互联技术将成为未来集群性能扩展效率的关键。在算力和电力资源的双重限制下,大模型军备竞赛正在向效率之争快速转变,亟需围绕算力生产、聚合、调度、释放四大环节构建高算效实现的完整技术体系,从集群设计和数据中心部署层面实现更高能效,最终形成可持续、可获得、可评估的高质量算力。