计算机行业:Google集群拆解
2025年11月Google集群拆解谢春生SAC NO. S0570519080006 | SFC NO. BQZ9381目 录1. Google集群的Scale up:3D结构2. Google集群的Scale up光互联:光路交换机3. TPU集群内,光路交换机和光模块占比4. Google集群的Scale out2Scale up与Scale out3Google:Scale up与Scale out趋势一:更大的集群,光模块相对GPU的比值会更高1Google集群的柜内Scale up:3D结构5TPU6 * 112 Gb/s * 8 / 8 * 2 ≈ 1.2TB/s6从TPU到TPU TrayTPU V7单卡TPU Tray7*Nvidia GPU:Hopper到BlackwellBlackwell NVLink 5:1.8 TB/s8*AMD GPU:MI350到MI400封装内带宽:5.5TB/S封装外 GPU-GPU带宽:1.075 TB/SPCIe 5.0:128 GB/S3张 800G网 卡 ,对应2.4Tb/sperGPU 的Scale out网络单 卡 72 条 200Gb UALinkLane,对应 72 * 200 / 8 =1.8TB/s的Scale up 网络9从TPU Tray到TPU RackTPU机架外观图TPU机架拆分连接到数据中心主交换网络(DCN)的通道,用于常规管 理 、数 据 存取 、 外部通信,与 ICI 网络是分离的。CPU Host(主机计算节点)Copper Intra-rack ICI Interconnects(机架内电缆 ICI)Heat Out(散热):机架的空气与液冷散热通道。TPU 板卡采用液体冷却系统,而整个 rack 的热量则通过风冷加液冷系统排出。物理结构:一列8行,每行2个TPU Tray。一个机架16个TPU Tray,64个TPU芯片10TPU Rack:拓扑结构蓝色箭头:内部ICI连接;向外箭头:连向外侧OCS的光缆。11*Nvidia GPU:连网方式12*Nvidia GPU:Scale up13*AMD GPU:Scale up2Google集群的Scale up光互联:光路交换机15光路交换机的工作原理光信号输入和输出:•光纤准直器(136通道):把来自光纤的发散光束变成平行光束,以便在空间中传播和被MEMS反射•二维透镜阵列:辅助光束的准直与聚焦,使得每根光纤对应一条独立的光束。光束交换:•二维 MEMS 微镜阵列:通过控制每个MEMS镜子的角度,光束可以被精确地反射到目标输出端口光路监控和对准:•注入模块(850nm 激光二极管):注入一束监控光(850 nm),它和信号光(O波段)共路。•二色分光元件:把监控光和数据信号光分开:•相机模块(850nm):接收监控光,判断光束是否准确到达目标端口,实现自动对准和校准。16TPU SuperPod:组成结构TPU V4 Superpod: 8*8TPU V7 Superpod: 16*917TPU SuperPod:组成结构Scale-up部分由光路交换机连接,实现TPU之间的全连接18TPU SuperPod:整体物理结构•每套系统包含 64 个 Google 机架,被划分成 8 组,每组 8 个机架。总共集成了 4096 芯片,共享 256 TiB HBM 内存容量。•总计算性能超过 1 ExaFLOP(10¹⁸ FLOPS)。•每组 8 个机架配备一台 Coolant Distribution Unit(CDU),负责提供液冷循环中的冷却介质。19TPU SuperPod:整体物理结构•Ironwood TPU 将帮助客户进一步突破规模和效率的极限。部署 TPU 时,系统会将每个芯片彼此连接,形成一个芯片组 (pod),从而使互连的 TPU 能够作为一个整体协同工作。•借助 Ironwood,我们可以在一个超级芯片组中扩展多达 9,216 个芯片,并通过突破性的芯片间互连 (ICI) 网络以 9.6 Tb/s 的速度连接。这种强大的连接能力使数千个芯片能够快速相互通信,并访问高达 1.77 PB 的HBM,从而克服即使是最苛刻模型的数据瓶颈。20TPU SuperPod:整体物理结构•TPU V7 Superpod物理结构:包含144个机架3TPU集群内,Scale up部分互联组件占比22TPU V4 光路交换机占比:1.1%•TPU数量:4096•相关参数:光路交换机端口 136*136,使用端口数为128*128•考虑Z轴方向通路,每个机架包含16个(4*4)向上的TPU,一个Superpod包含64个机架,所以向上的TPU数为16*64,考虑上下两个面,一个TPU连出/连入一根光缆,因此总的光缆数为 16*64*2•光路交换机端口为128, 16*64*2/128=16,所以Z轴方向16个光路交换机•X/Y/Z轴一共48个光路交换机23TPU V7 光路交换机占比:0.52%•TPU数量:9216•相关参数:光路交换机端口 300*300,使用端口数为288*288•考虑Z轴方向通路,每个机架包含16个(4*4)向上的TPU,一个Superpod包含144个机架,所以向上的TPU数为16*144,考虑上下两个面,一个TPU连出/连入一根光缆,因此总的光缆数为 16*144*2•光路交换机端口为128, 16*144*2/288=16,所以Z轴方向16个光路交换机•X/Y/Z轴一共48个光路交换机,光路交换机占比为0.52%24TPU V4集群Scale up光模块比例:1.5•TPU数量:4096•光模块数量 = 总的光缆数 = 朝向外的TPU数量 = 16 * 64(每个面朝外的TPU) * 6(6个面)= 6144•光模块比例:6144/4096 = 1.525TPU V7集群Scale up光模块比例:1.5•TPU数量:9216•光模块数量 = 总的光缆数 = 朝向外的TPU数量 = 16 * 144(每个面朝外的TPU) * 6(6个面)= 13824•光模块比例:13824/9216 = 1.526机架内:其他量化数据•对于单个Rack:•向外光模块:6*16•PCB Traces:4*16•Copper cables:12(单方向连线)*4*3(3个方向) – 4*16 = 8027TPU•为什么每个TPU对应4个OSFP?•80 * 2(Copper cables)+ 96(96 optical fiber) = 256 = 64 * 4TPU V7TPU V44Google集群的Scale out29Scale outTomahawk 5交换机参数:128个400G端口30TPU SuperPod之外•通过数据中心网络 (DCN) 进行通信31Google:Scale out中的OCS32Google:Scale out中的OCS33NV Scale out中的OCS•2025年7月:Nvidia论文Programmable Fabrics with Optical Switchesin AI Supercompu
[华泰证券]:计算机行业:Google集群拆解,点击即可下载。报告格式为PDF,大小5.89M,页数41页,欢迎下载。



