2025年扁平化智算网络架构研究报告

工编号ODCC-2025-03006]扁平化智算网络架构研究报告点燃2025年9月前言大模型巨大的算力需求,持续提升了集群的规模,产生了大规模的 Scale-out 网络。模型稀疏化的演进趋势,又驱动了更大规模局部大带宽互连需求,产生了逐渐扩大的 Scale-up 网络。本研究报告通过剖析智算网络训练与推理两大场景的业务负载及变化趋势,梳理不同网络类型的核心需求,对业界组网架构现状展开优缺点分析,进而提出扁平化优化方向,并展望未来网络架构发展方向。需强调:扁平化架构的实现亟需产业链深度协同,关键在于突破端侧网卡与 I/O Die、及网侧交换机的高扇出能力、低功耗低时延且开放的光电互连能力、及端网协同的负载均衡与故障隔离等核心技术,这要求芯片商、设备商及最终用户形成联合攻坚生态。目录一、智算网络场景 ................................................... 1(一)业务负载说明 ..............................................1(二)三种网络类型 ..............................................6二、现有组网架构讨论 .............................................. 10(一)SO网络架构 .............................................. 10(二)SU网络架构 .............................................. 20三、扁平化智算网络架构优化方向 .................................... 26(一)SO网络 .................................................. 26(二)SU网络 .................................................. 31四、未来网络架构趋势展望 .......................................... 33(一)大规模低直径的网络 .......................................34(二)多网融合 .................................................36五、附录 .......................................................... 37六、参考 .......................................................... 37图 目 录图 1 大模型训练的并行技术示意 ...................................2图 2 DistServe 论文中分离部署实测效果对比 ........................ 4图 3 AE 分离部署仿真效果 ....................................... 5图 4 智算网络的分类 .............................................6图 5 胖树拓扑 ...................................................9图 6 Meta 智算集群拓扑 ......................................... 11图 7 阿里智算集群拓扑 ..........................................12图 8 不同集合通信算子对收敛的容忍度 ............................14图 9 稠密模型和稀疏模型通信模式的差异 ..........................16图 10 多轨组网示意,图为 8 轨道 .................................17图 11 单轨组网示意 .............................................17图 12 Dragonfly 拓扑示意图 ...................................... 19图 13Dragonfly+拓扑示意图 .................................... 20图 14 NVL72 超节点的拓扑示意 .................................. 21图 15 NVL576 超节点的拓扑示意 ................................. 22图 16 H100 NVL256 成本分析 ....................................22图 17 Google TPU 集群的网络架构演进 ........................... 23图 18 Torus 拓扑的 Alltoall 通信性能仿真数据 .......................24图 19 Torus 拓扑的 Allreduce 通信性能仿真数据 .....................24图 20 AMD 的 SU 网络架构示意 .................................. 25图 21 nD-FullMesh 拓扑示意图 ................................... 25图 22 多平面扩展接入带宽 .......................................27图 23 Ideal Multi-Plane Network: Each NIC is equipped with multiple physicalports, each connected to a distinct network plane. A single queue pair (QP)can simultaneously utilize all available ports for transmitting and receivingpackets, which necessitates .................................... 27图 24 多平面组网的线路交织方式 .................................28图 25 多平面负载均衡示意 .......................................29图 26 多平面故障隔离示意 .......................................3027 Dragonfly+与 Group-Wise Dragonfly+在绕行路径的对比 ............31图 28 当前 ETH-X 超节点定义 ........................

立即下载
综合
2025-10-10
45页
7.44M
收藏
分享

2025年扁平化智算网络架构研究报告,点击即可下载。报告格式为PDF,大小7.44M,页数45页,欢迎下载。

本报告共45页,只提供前10页预览,清晰完整版报告请下载后查看,喜欢就下载吧!
立即下载
本报告共45页,只提供前10页预览,清晰完整版报告请下载后查看,喜欢就下载吧!
立即下载
水滴研报所有报告均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。
相关图表
表 4 智能客服资源负载
综合
2025-10-10
来源:OTII-E边缘AI推理一体机
查看原文
图 15 智能客服工作流
综合
2025-10-10
来源:OTII-E边缘AI推理一体机
查看原文
表 3 AI 视频搜索资源负载
综合
2025-10-10
来源:OTII-E边缘AI推理一体机
查看原文
图 13 视频搜索工作流
综合
2025-10-10
来源:OTII-E边缘AI推理一体机
查看原文
图 10 多节点多卡并行
综合
2025-10-10
来源:OTII-E边缘AI推理一体机
查看原文
图 8 单节点多模型资源分配
综合
2025-10-10
来源:OTII-E边缘AI推理一体机
查看原文
回顶部
报告群
公众号
小程序
在线客服
收起