通信行业2024上市公司见面会暨春季策略会:全球算力共振,国内新连接开启
姓名:王彦龙(分析师)姓名:黎明聪(分析师)邮箱:wangyanlong@gtjas.com邮箱:limingcong@gtjas.com电话:010-83939775电话:0755-23976500证书编号:S0880519100003证书编号:S08805230800081请参阅附注免责声明LPOCPODCI5G-AAIAI。2请参阅附注免责声明/3请参阅附注免责声明4请参阅附注免责声明NVDAGB200数据来源:英伟达发布会,国泰君安证券研究表:NVDA新一代GPU集群架构情况•光模块数量和比例取决于不同组网方式和计算单元,差异较大,最终整体需求取决于不同组合的销售占比情况,总体仍然会有强有力的需求。5请参阅附注免责声明GoogleTPUv4TPUv5•谷歌自研TPU系列作为训练芯片,其中其2023年6.17 ISCA的论文提到90%的训练在TPU上进行。•2020年开始部署TPUv4,对应400G光模块,而我们预计当前已经开始部署TPUv5,对应800G光模块。•一个TPUv4 Package有16个OSFP连接口,作为外部的ICI互联。,每个TPUv4有6个ICI link,16个Package组成一个机柜(Rack),一共有64个机柜,按8*8去排列。数据来源:谷歌图:TPUv4封装形态数据来源:谷歌图:1个4096集群里64个机柜中的8个图示6请参阅附注免责声明GoogleOCSMEMs136*136•机柜与机柜间的连接要经过OCS,全称Optical Circuit Switch,是谷歌自研的光交换机。•谷歌OCS交换机成为Palomar,拥有136*136个端口交互能力,用MEMS阵列控制光路输入输出。•应用中,一般128个通道是工作通道,8个是测试通道。数据来源:谷歌图:OCS实际架构群图:OCS原理图数据来源:谷歌7请参阅附注免责声明AWSTrainium2D TorusNeuronLink-v2•AWS Trainium 是 AWS 专门为超过 1000 亿个参数模型的深度学习训练打造的第二代机器学习 (ML) 加速器。•每个加速器包括2个NeuronCore,具备32GB HBM内存,提供190TFLOPS的FP16/BF16,380 INT8 TOPS,47.5 FP32 TFLOPS•卡间互联网络采用NeuronLink-v2,类似于NVLink,互联速率达到384GB,比A100 300GB要高。数据来源:AWS官网图:大模型时代算力需求增长超越摩尔定律图:Trn1/Trn1n服务器内卡间互联采用2D Torus 拓扑结构数据来源:AWS官网8请参阅附注免责声明AWSTrainiumH100A100TrainiumEC2 UltraClusters•EC2 UltraClusters是可以扩展到数千张GPU或者ML加速器,例如AWS Tranium、H100、A100的集群•EC2 允许扩展到20000H100,A100则是仅扩展到4000张,Trainium可以扩展至30000张。数据来源:AWS官网图:UltraCluster允许进行non-blocking大量组网UltraClusterAI AccelaratorMaxiumNetworking总算力P4A10010000400Gb/s3EflopsP5H100200003200Gb/s20EflopsTrn1Trainium30000800Gb/s或1.6T/s6Eflops表:不同类型AI芯片组网情况数据来源:AWS官网,国泰君安证券研究9请参阅附注免责声明METAMTIA•Meta自研的MTIA芯片当前仅使用100G总带宽,而卡间互联还是使用PCIE GEN4。•也可以看到,在云厂商中8个A100的方案大部分采用400G的总带宽接入,而不是Nvidia的1.6T。表: Meta的MITA推理服务器目前采用100G网卡表: MTIA性能指标数据来源:MTIA数据来源:MTIA10请参阅附注免责声明IntelGaudi22.4T82.4T•每个OAM非卡间互联带宽为300G RoCE,8张卡对应8*300G对应6个QSFP-DD1连接口,即每个QSFP-DD为400G。•如果构建成二层、三层400G网络集群则对应卡:400G光模块=1:4.5数据来源:Baudi2白皮书图:8-OAM的Gaudi服务器需要2.4T接入带宽图:8-OAM的Gaudi服务器需要6个QSFP-DD口数据来源:Baudi2白皮书11请参阅附注免责声明•昇腾910B作为AI处理器,是构成Atlas 900 PoD集群的核心组件之一。Atlas 900 PoD通过集成昇腾910B等AI处理器,构建出一个强大的AI训练集群,提供高性能的AI计算能力。•Atlas 900 PoD(型号:9000)是基于华为鲲鹏+昇腾处理器的AI训练集群基础单元,具有超强AI算力、更优AI能效、极佳AI拓展等特点。该基础单元广泛应用于深度学习模型开发和训练,适用于智慧城市、智慧医疗、天文探索、石油勘探等需要大AI算力的领域。Atlas 900 PoD900047U CPU32 * 920CPU• 256DDR4RDIMM• 32 GB/64 GBAI64 * 64 * 2.5RAIDRAID 0/1• 63+3380V,32A• 42+2380V,32A46 kW• 5℃40℃41℉104℉≤1800mASHRAE Class A2/A3/A4H*W*D• 2250mm600mm1500mm• 2410mm980mm1455mm数据来源:华为官网图:华为昇腾计算产品数据来源:华为官网表:Atlas 900 PoD技术参数12请参阅附注免责声明800•含光800是平头哥发布的首颗数据中心芯片。含光800是一颗高性能人工智能推理芯片,基于12nm工艺, 集成170亿晶体管,性能峰值算力达820 TOPS,推理性能达到78563 IPS,能效比达500 IPS/W。•含光800采用平头哥自研架构,通过软硬件协同设计实现性能突破。平头哥自主研发的人工智能芯片软件开发包,让含光800芯片在开发深度学习应用时可以获得高吞吐量和低延迟的高性能体验。含光800已成功应用在数据中心、边缘服务器等场景。图:含光800 NPU/NPU核架构图图:含光800 核心参数数据来源:平头哥官网数据来源:平头哥官网13请参阅附注免责声明14请参阅附注免责声明1.6TAI1.6T2024H2•传统数通市场受益于交换机芯片3年一代的升级周期,速率端口基本上3年升级一倍;•受益于AI芯片的快速迭代和上量,预计端口速率升级翻倍的时间将缩短至2年以内。图:谷歌在论文中预计2024年开始会出现1.6T光模块的需求数据来源:Mission Apollo: Landing Optical Circuit Switching at Datacenter Scale数据来源:半导体行业观察,Semianalysis,Nvidia路线图图:预计2024H2和2025年将开始出现1.6T端口需求15请参阅附注免责声明1.6T•OFC 2024,Broadcom、Lumentum等大厂展出200G
[国泰君安]:通信行业2024上市公司见面会暨春季策略会:全球算力共振,国内新连接开启,点击即可下载。报告格式为PDF,大小5.35M,页数39页,欢迎下载。
