AI算力行业跟踪深度:辨析Scale Out与Scale Up,AEC在光铜互联夹缝中挤出市场的What、Why、How
AI算力跟踪深度:辨析Scale Out与Scale Up——AEC在光铜互联夹缝中挤出市场的What、Why、How证券分析师 :张良卫执业证书编号:S0600516070001联系邮箱:zhanglw@dwzq.com.cn联系电话:021-601997932025年1月6日行业研究报告请务必阅读正文之后的免责声明部分研究助理:李博韦执业证书编号:S0600123070070联系邮箱:libw@dwzq.com.cn核心观点我们认为AEC是AI计算时代Scale Up需求被放大后的新兴技术方向,与Scale Out光互联并不构成需求的“零和游戏”,后续有望在柜间、柜内、ToR层互联中继续渗透:1、绪论:如何辨析Scale Out与Scale Up网络? Scale Out网络实现集群内(Cluster,如万卡、十万卡集群)所有GPU卡互联,亮点在于网络内连接GPU数量大,与传统数据中心网络类似,Scale Up网络实现超节点内(SuperPod,如NVL 72)所有GPU卡互联,亮点在网络内单卡通信带宽高,为AI算力场景下并行计算、内存墙等瓶颈催生出的新兴需求;2、What:DAC、AEC、AOC是什么? 1)DAC、AEC都是铜连接,DAC无源(没有信号处理芯片)、AEC有源(有信号处理芯片),AOC是有源光连接;2)信号传输的核心部件与原理不同导致三类连接方式的功耗、距离、成本成倍递增;3、Why:为什么AEC在DAC、AOC的夹缝中挤出空间? 1)光进铜退已经发生于Scale Out网络:由于传输速率、距离均不断提升,光几乎已占据Scale Out所有互联场景;2)能用铜的场景就只会用铜不会用光:当前铜在10m以内高速连接仍可使用,因此光模块、CPO尚无法替代此场景;3) Scale Up互联GPU数量少距离近,10m以内铜连接或可全覆盖,并不构成对光互联空间的侵蚀;4)距离、尺寸等差距导致铜缆内部有源(AEC)进无源(DAC)退;4、How:AEC在算力网络侧如何部署、前景如何? 1)目前AEC主要用在Scale Up的柜间连接,如目前亚马逊Trn2-Ultra64使用 AEC柜间互联,ASIC芯片与AEC配比为1:1;2)AEC与ASIC两者的兴起有相关性而非因果性,其底层逻辑是计算与通信的再解耦:云厂使用ASIC或英伟达HGX等,而非英伟达DGX方案时,完全来自英伟达的计算+通信方案也随之解耦,云厂便可以自主选择使用AEC;3)AEC还可以向柜内与ToR层渗透:假如英伟达GB200 NVL72/8柜内换用AEC,一枚B200对应4.5支等效1.6T AEC,假如亚马逊Trn2-Ultra64柜内换用AEC,一枚Trainium2对应约3支800G AEC,决定配比的关键因素仍为单卡带宽及交换机层数; 假如AEC参与ToR层连接,和算力卡配比为1:1;4)与DAC产业链中连接器品牌方是最核心环节不同,Retimer芯片供应商+品牌方变为AEC产业链中主导方;投资建议:1)AEC有望在Scale Up兴起的趋势下获得越来越多的市场空间:关注兆龙互连,博创科技,推荐中际旭创,关注澜起科技;2)Scale Up有望带来新的交换机需求:推荐盛科通信,关注锐捷网络,紫光股份,中兴通讯;3)“光退铜进”并未发生,光模块市场需求基本未被动摇:推荐中际旭创,天孚通信,关注新易盛。风险提示:算力互联需求不及预期;客户开拓与份额不及预期;产品研发落地不及预期;行业竞争加剧。1目录绪论:如何辨析Scale Out及Scale Up网络?What:DAC、AEC、AOC是什么?Why:为什么AEC在互联场景中挤出应用空间?How:AEC在算力网络侧如何部署、前景如何?投资建议风险提示21. 绪论:如何辨析Scale Out与Scale Up网络?3若干超节点(SuperPod,如NVL 72)组成集群(Cluster,如万卡、十万卡集群);•Scale Out网络实现集群内所有GPU卡互联,亮点在于网络内连接GPU数量大,与传统数据中心网络类似;•Scale Up网络实现超节点内所有GPU卡互联,亮点在于网络内单卡通信带宽高,为AI算力场景下新兴的网络架构。(由于篇幅有限本文未就技术原理做详细阐述,具体细节欢迎进一步交流)资料来源:Marvell,东吴证券研究所Scale Out网络与Scale Up网络最大GPU数(张)单卡带宽(Gb/s)Scale Out746496800Scale Up727200Scale Out与Scale Up网络对比(NVL72+CX-8网卡+三层Quantum-X800 IB网络)1. Scale Out已经成熟, Scale Up 源于AI训推计算范式改变集群内Scale Out超节点内Scale Up4•AI训推需要分布式并行计算,基于对计算效率不断提升的追求,并行计算方式有数据并行(Data Parallelism)、流水线并行(Pipeline Parallelism)及张量并行(Tensor Parallelism)。•数据并行:将输入数据分配给各个负载,各负载上基于不同数据进行同一模型的训练/推理;•流水线并行:将模型分为若干层分配给各个负载,各负载分别进行不同层的计算;•张量并行:将模型参数运算的矩阵拆分至各个负载,各负载分别进行不同的矩阵运算。(由于篇幅有限本文未就技术原理做详细阐述,具体细节欢迎进一步交流)数据并行(左),张量并行(中),流水线并行(右)计算原理图资料来源:Github-Phillip Lippe,东吴证券研究所1. Scale Out已经成熟, Scale Up 源于AI训推计算范式改变5并行计算催生Scale Up网络需求:•几类并行计算方法各有优劣,大模型训练采用集合了多种并行方式的混合并行计算,如3D并行计算;•与数据并行、流水线并行相比,张量并行矩阵运算后需要同步,因此需要更高频、更低延时的数据传输,传输数据量也高出一到两个数量级;•通常数据并行、流水线并行基于容纳卡数更高的Scale Out网络,张量并行基于单卡带宽更高的Scale Up网络。(由于篇幅有限本文未就技术原理做详细阐述,具体细节欢迎进一步交流)张量并行需要传输的数据量多出一到两个数量级(GPT-3B模型基于32个GPU训练数据)3D并行计算资料来源:《3D parallelism: Scaling to trillion-parameter models》,《Understanding Communication Characteristics of Distributed Training》,东吴证券研究所1. Scale Out已经成熟, Scale Up 源于AI训推计算范式改变6训推计算的“内存墙”催生出通过Scale Up网络将显存池化的需求:•单一大模型的参数量与单卡显存的差距(即模型内存墙)、单卡算力与单卡显存间的差距(即算力内存墙)均逐代放大;•除模型参数外,推理计算生成的KV Cache(关键中间值的缓存,用于简化计算)占用显存大小也可达模型的50%甚至以上;•因此单卡运算时需从多张卡的显存读取所需参数、数据,为了尽可能减少数据传输时
[东吴证券]:AI算力行业跟踪深度:辨析Scale Out与Scale Up,AEC在光铜互联夹缝中挤出市场的What、Why、How,点击即可下载。报告格式为PDF,大小2.52M,页数33页,欢迎下载。
