通信行业百万卡算力之路:多DC分布式训练和DCI需求增长
请务必阅读报告末页的重要声明 glzqdatemark1 证券研究报告 行业研究|行业专题研究|通信 百万卡算力之路: 多 DC 分布式训练和 DCI 需求增长 2024年10月07日 |报告要点 |分析师及联系人 证券研究报告 请务必阅读报告末页的重要声明 1 / 10 高能耗的算力集群将迫使 AI 模型训练从单计算中心训练,走向多 DC 协同训练,远距离异步协同训练将成为主流。Meta 和 Google 已经开始了多 DC 分布式训练,其中 Google 的 Gemini 1 Ultra 就是通过多 DC 的分布式训练实现的,OpenAI 和微软计划将各个超大型园区互连在一起起来,并在全国范围内进行大规模的分布式训练。多 DC 协同训练给网络带来挑战。400G ZR相干技术优势明显,ZR 光模块需求有望增长。我们认为 AI 算力对网络的需求正在向 DCI 场景扩散,有望带动 DCI 市场的高速增长。建议关注 DCI 产业链和 400G/800G ZR 光模块供应商。 张宁 张建宇 SAC:S0590523120003 SAC:S0590524050003 请务必阅读报告末页的重要声明 2 / 10 行业研究|行业专题研究 glzqdatemark2 通信 百万卡算力之路: 多 DC 分布式训练和 DCI 需求增长 投资建议: 强于大市(维持) 上次建议: 强于大市 相对大盘走势 相关报告 1、《通信:华为领航,AI 和国产算力产业持续蓬勃发展》2024.09.22 2、《通信:CIOE2024:聚焦 AI,关注 1.6T 和DCI 新变量》2024.09.16 扫码查看更多 海外科技巨头积极布局多 DC 分布式训练 关于 AI 大模型训练在什么阶段需要 DCI 联接,需要多少 DCI 带宽,我们认为不同的互联网公司,因为 IDC 资源不同、业务模型不同,会有较大的配置差异。但是Meta 和 Google 已经开始了多 DC 分布式训练,其中 Google 的 Gemini 1 Ultra 就是通过多 DC 的分布式训练实现的。谷歌目前有两个主要的多数据中心区域,分别位于俄亥俄州和爱荷华州/内布拉斯加州。OpenAI 和微软更加雄心勃勃,计划将各个超大型园区互连在一起起来,并在全国范围内进行大规模的分布式训练。 分布式训练给网络带来挑战 AI 训练步入十万卡时代,跨 DC 协同训练对网络带来挑战。(1)AI 训练对网络丢包的敏感度高。(2)大象流会导致网络中的传统基于五元组的负载分担方法失效,链路负载不均衡,降低网络使用率。(3)在万卡集群中,极端情况下流量瞬时并发可达上千 Tbps。目前,十公里的跨机楼并行训练算效损失可低于 5%,具备可行性,未来百公里级、千公里级的跨地域并行训练欲将损失控制在 10%以下,除需建设长距离超宽 DCI 网络之外,还涉及模型切分策略、集合通信算法、无损网络技术等。 400G ZR 相干技术优势明显,ZR 光模块需求有望增长 400G ZR 相干光学技术有望在 DCI 中取代传统的波分复用(WDM)系统。相比于传统的 WDM 系统,400G ZR 系统更加简洁,主要有 MUX/DEMUX,并采用可调谐激光器的相干光模块,直接放在客户侧的交换机/路由器上。根据 LightCounting 的预测,2024-2028 年,400G ZR,ZR+的光模块保持增长。产品价值量方面,根据LightCounting 预测,2023 年 400G ZR 的价格为 3230 美元,2024 年 800G ZR 的价格为 4800 美元。 建议关注 DCI 产业链和 400G/800G ZR 供应商 海外科技巨头积极布局多 DC 分布式训练,我们认为 AI 算力部署对网络的需求正在向 DCI 场景扩散,有望带动 DCI 市场的高速增长。我们建议关注:国内 OTN 厂商:中兴通讯、烽火通信、光迅科技;有 400G/800G ZR 产品布局的德科立、中际旭创、新易盛、华工科技;铌酸锂调制供应商:光库科技。 风险提示:AI 产业发展不及预期风险、算力需求不及预期风险、技术发展不及预期风险、市场竞争加剧风险。 -30%-17%-3%10%2023/102024/22024/62024/9通信沪深3002024年10月07日 请务必阅读报告末页的重要声明 3 / 10 行业研究|行业专题研究 正文目录 1. 多 DC 协同训练,算力竞争下半场 ..................................... 4 1.1 海外科技巨头积极布局多 DC 分布式训练 ......................... 4 1.2 分布式训练给网络带来挑战 .................................... 5 1.3 DCI 互联方案和市场空间分析 ................................... 6 2. 投资建议:优先看海外 DCI,长期看国内 DCI ............................ 8 2.1 国内主要的 DCI 厂家 .......................................... 8 2.2 建议关注 DCI 产业链和 400G/800G ZR 供应商 ...................... 9 3. 风险提示 .......................................................... 9 图表目录 图表 1: Meta 的分布式训练架构 ......................................... 4 图表 2: Google 的大规模训练结构图 ..................................... 4 图表 3: Google 的 IDC 集群(位于康瑟尔布拉夫斯、奥马哈、爱荷华州帕皮隆和内布拉斯加州林肯市) .................................................... 5 图表 4: Google 的 IDC 集群(位于俄亥俄州哥伦布市附近) ................. 5 图表 5: 微软在凤凰城区域的 IDC 园区位置 ................................ 5 图表 6: 微软在德克萨斯州的 IDC 园区位置 ................................ 5 图表 7: 跨 DC 协同训练给网络带来挑战 ................................... 6 图表 8: 谷歌 Pathways 训练系统 ......................................... 6 图表 9: DWDM 工作原理 .........
[国联证券]:通信行业百万卡算力之路:多DC分布式训练和DCI需求增长,点击即可下载。报告格式为PDF,大小2.73M,页数11页,欢迎下载。
