电子行业“AI的裂变时刻”系列13:计算集群规模提升趋势明确,以太网交换机市场空间广阔

识别风险,发现价值 请务必阅读末页的免责声明 1 / 7 [Table_C ontacter] 本报告联系人: [Table_Page] 行业专题研究|电子 2024 年 7 月 4 日 证券研究报告 [Table_Title] “AI 的裂变时刻”系列 13 计算集群规模提升趋势明确,以太网交换机市场空间广阔 [Table_Author] 分析师: 王亮 分析师: 耿正 分析师: 张大伟 SAC 执证号:S0260519060001 SFC CE.no: BFS478 SAC 执证号:S0260520090002 SAC 执证号:S0260523050001 021-38003658 021-38003660 021-38003657 gfwangliang@gf.com.cn gengzheng@gf.com.cn zhangdawei@gf.com.cn 请注意,耿正,张大伟并非香港证券及期货事务监察委员会的注册持牌人,不可在香港从事受监管活动。 [Table_Summary] 核心观点:  GPU 集群规模增长趋势显著。在大模型 Scaling Laws 持续有效的背景下,以集群形式的分布式并行训练能够有效节省训练时间与提升 GPU 使用效率,面对不断膨胀的模型参数和训练数据,为尽可能缩短模型训练时间,提升模型迭代效率,集群规模有望实现指数级增长。以英伟达为例,根据其在 COMPUTEX 2024 上发布的升级规划:(1)2024 年互联超一万颗 GPU;(2)2025 年互联超十万颗 GPU;(3)2026 年互联超百万颗 GPU。  集群规模扩张推动网络层数增加,进而提升交换机配比。集群内网络搭建需要满足高带宽和低延迟的需求,因此,使用 Fat-Tree(胖树)架构的 CLOS 网络正被广泛应用于计算集群中。随着计算集群规模的持续扩大,交换机网络层数将随之提升。根据英伟达官网,以 SPECTRUM-X 以太网交换机为例,主流型号 SN5600 拥有 64个 800Gbps 端口。根据论文《A Scalable, Commodity Data Center Network Architecture》中的测算,在不考虑网络收敛和光模块拆分的情况下,不同层数的 CLOS 胖树架构互联 GPU 的上限分别为:(1)2 层架构:计算网络最多使用 96 个交换机,最多互联 2,048 个 GPU,GPU 与计算网络交换机配比为 64:3;(2)3 层架构:计算网络最多使用 5,120 个交换机,最多互联 65,536 个 GPU,GPU 与计算网络交换机配比为 64:5;(3)4 层架构:计算网络最多使用 229,376 个交换机,最多互联 2,097,152 个 GPU,GPU 与交计算网络机的配比为 64:7。  GPU 集群规模扩张触发 InfiniBand 互联上限,RoCE 协议有望在大集群中更多被应用。InfiniBand 协议中优先考虑尽可能降低网络延迟,而 RoCE 协议则优先考虑网络的兼容性与分布式。在数据交互中,IB 协议中每个GPU 都有自己的 LID(Local ID),两两 GPU 之间交互路径由路由表提前算好,以此实现低延时效果。但根据IB 协议中的报文结构,LID 由一个 16 位的二进制编码组成,因此在 IB 网络协议下,互联的 GPU 上限为2^16=65,536 个。随着集群规模向十万卡级别升级,RoCE 协议组网方案有望在大集群中更多被应用。  互联速率提升趋势加速,数据中心以太网交换机迎来量价齐升机遇。在千亿级参数的大模型训练中,单次计算迭代内梯度同步需要的通信量就达到了百 GB 量级,随模型参数以及单 GPU 算力持续提升,为充分发挥 GPU计算资源的利用率,对于集群中计算单元的通信速率需要持续升级。Marvell 在 24 年 AI Day 上表示,互联速率在 AI 的催化下,从之前的每四年翻一倍加速至每两年翻一倍;根据博通官网,其 Tomahawk 5 交换芯片容量已达 51.2Tb/s,可支持 64 个 800Gbps 端口的数据交换,而下一代 Tomahawk 6 芯片交换容量将提升至 102.4Tb/s。在集群互联规模&互联带宽持续提升的背景下,根据 Arista 官网预测,26 年数据中心以太网交换机市场规模有望从 23 年的 200 亿美元出头提升至接近 300 亿美元,市场规模提升显著,产业链公司有望深度受益。  建议关注。(1)交换机 PCB 龙头:沪电股份。根据沪电股份年报,公司基于 112Gbps 速率 51.2T 的盒式 800G交换机已批量交付,224Gbps 产品开始预研。(2)本土交换机 ODM:华勤技术。根据公司 24 年一月投资者关系活动记录表 23 年三季度,公司实现头部互联网客户 TH5 主流交换机中标,成功突破交换机大客户。  风险提示。大语言模型技术变化,大模型开发或 AI 应用进展不及预期,云计算厂商 CapEx 不及预期。 识别风险,发现价值 请务必阅读末页的免责声明 2 / 7 [Table_PageText] 行业专题研究|电子 图 1:英伟达互联升级路径 数据来源:英伟达,广发证券发展研究中心 图 2:英伟达GB200 3.2万卡集群方案 图 3:Meta万卡集群方案 数据来源:英伟达,广发证券发展研究中心 数据来源:Meta,广发证券发展研究中心 图 4:MegaScale训练175B模型对MFU的优化 图 5:百度智能云AIPod 数据来源:MegaScale,广发证券发展研究中心 数据来源:百度智能云,广发证券发展研究中心 识别风险,发现价值 请务必阅读末页的免责声明 3 / 7 [Table_PageText] 行业专题研究|电子 图 6:140台DGX A100集群中的计算网络架构 数据来源:NVIDIA 官网,广发证券发展研究中心 表 1:集群互联升级路径&交换机配比测算(测算交换机为SN5600 64端口版本) 二层架构 卡:交换机(64 口) 64:3 服务器 8:3 最多互联 GPU 数 2,048 交换机个数 96 63+32 三层架构 卡:交换机(64 口) 64:5 服务器 8:5 最多互联 GPU 数 65,536 交换机个数 5120 2048+2048+1024 四层架构 卡:交换机(64 口) 64:7 服务器 8:7 最多互联 GPU 数 2,097,152 交换机个数 229,376 65536+65536+65536+32768 数据来源:《A Scalable, Commodity Data Center Network Architecture》Mohammad Al-Fares 等,广发证券发展研究中心

立即下载
信息科技
2024-07-04
广发证券
7页
1.84M
收藏
分享

[广发证券]:电子行业“AI的裂变时刻”系列13:计算集群规模提升趋势明确,以太网交换机市场空间广阔,点击即可下载。报告格式为PDF,大小1.84M,页数7页,欢迎下载。

本报告共7页,只提供前10页预览,清晰完整版报告请下载后查看,喜欢就下载吧!
立即下载
本报告共7页,只提供前10页预览,清晰完整版报告请下载后查看,喜欢就下载吧!
立即下载
水滴研报所有报告均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。
相关图表
公司利润敏感性分析(单位:亿元)
信息科技
2024-07-04
来源:景旺电子(603228)汽车PCB构筑稳健增长,布局高端产能注入成长动能
查看原文
景旺电子 HDI 技术能力
信息科技
2024-07-04
来源:景旺电子(603228)汽车PCB构筑稳健增长,布局高端产能注入成长动能
查看原文
GB200 使用液冷散热方案
信息科技
2024-07-04
来源:景旺电子(603228)汽车PCB构筑稳健增长,布局高端产能注入成长动能
查看原文
GB200 NVL72 服务器架构
信息科技
2024-07-04
来源:景旺电子(603228)汽车PCB构筑稳健增长,布局高端产能注入成长动能
查看原文
GB200 内部通过 NVLink 连接
信息科技
2024-07-04
来源:景旺电子(603228)汽车PCB构筑稳健增长,布局高端产能注入成长动能
查看原文
GB200 由 2 颗 B200 和 1 颗 CPU 组成 图 35:B200 性能较 H100 全面升级
信息科技
2024-07-04
来源:景旺电子(603228)汽车PCB构筑稳健增长,布局高端产能注入成长动能
查看原文
回顶部
报告群
公众号
小程序
在线客服
收起