通信行业点评:特斯拉超算网络结构解析,关注互联与效率
请务必阅读正文之后的免责声明及其项下所有内容证券研究报告 | 2023年09月27日超 配1行业点评特斯拉超算网络结构解析,关注互联与效率 行业研究·行业快评 通信·通信设备 投资评级:超配(维持评级)证券分析师:马成龙021-60933150machenglong@guosen.com.cn执证编码:S0980518100002证券分析师:朱锟旭021-60375456zhukunxu@guosen.com.cn执证编码:S0980523060003事项:近期特斯拉Dojo超算系统正式上线,早在2021年特斯拉的AI DAY会议上,特斯拉就开始展示Project Dojo,经过 2 年的时间,Dojo 超级计算系统完成上线。Dojo 是特斯拉用于云端训练 AI 模型的超级计算机,可服务于特斯拉的全自动驾驶(FSD)系统升级迭代。根据“Tesla AI”公布的算力预期显示,预计 2024 年 2月,特斯拉算力规模将进入全球前五,2024 年 10 月总规模将达到 100 Exa-Flops。国信通信观点:特斯拉 Dojo 超算是一套完全自研的系统,在服务器层采用自研芯片,并开创全新芯片互联模式,提升芯片互联速率和存储规模,更高效服务于内部应用的算力需求。AI 应用最大的特点在于需要大量并行计算,对应到超算系统,单卡算力、网络互联、可扩展性成为核心关注因素。网络互联作为其中关键一环,需要持续进行速率提升推动算力系统升级,涉及到的硬件环节包括交换机、光模块等。投资建议:网络互联作为后续超算系统升级的方向之一,带来交换机、光模块等环节持续迭代需求。建议重点关注:光模块及光器件、光芯片环节【中际旭创】、【天孚通信】、【新易盛】、【源杰科技】、【光库科技】等;国内 ICT 领先企业【紫光股份】、【锐捷网络】、【中兴通讯】、【菲菱科思】等。风险提示:AI 进展不及预期;硬件环节(服务器、交换机、光模块)迭代不及预期。评论: Dojo 超算结构拆解Dojo 超算基本架构:芯片 D1-Training Tile-System Tray-ExaPOD。Dojo 超算系统由特斯拉完全自研打造,从该超算系统的构成来看,大体可分为四个层级,从 D1 芯片到训练模块 Training Tile,再到 System Tray,最后组成一个完整的 ExaPOD。其中:D1 是特斯拉自主设计的神经网络训练芯片,每 25 个 D1 芯片组成一个训练模块(Training Tile),每 6 个训练模块再组成一个系统托盘(System Tray),最后每 2 组 Tray 放在一个机柜内部,每 10 组机柜构成一个完整的超算系统 ExaPOD。请务必阅读正文之后的免责声明及其项下所有内容证券研究报告2表1:特斯拉 Dojo 超算结构拆解结构示意图基本参数D1特斯拉自研的 AI 芯片:D17nm 制程工艺,354 个训练计算节点D1 芯片的单个功能单元具有 1.25MB SRAM 缓存Dojo TileDojo Tile:基本训练模组每个 Tile 由 5*5=25 个 D1 芯片组成System Tray每个 System Tray 由 6 个 Tile 组成BF16/CFP8 峰值算力可达到 54TFLOPS,功耗 100+kW。ExaPODExaPOD:由 20 个 System Tray 构成,其中 2 个 Tray在一个机柜内,一共 10 个机柜每个 EXaPOD:对应 20*6*25=3000 个 D1 芯片总算力:1.1EFLOPS资料来源:Tesla AI Day,Hot Chips,国信证券经济研究所整理D1:自定义 AI 芯片。特斯拉 AI 芯片采用 7nm 工艺制程,拥有 500 亿个晶体管,芯片面积为 645mm²,小于英伟达的 A100(826mm²)和 AMD Arcturus(750mm²)。每个 D1 芯片拥有 354 个 Dojo core 计算节点(类似 A100 的 Tensor core),每个 Dojo core 拥有 1.25MB 的 SRAM 作为主要的权重和数据存储。在 D1 支持数据格式上,除了支持 AI 常使用的 FP32 和 FP16 两个标准计算格式,同时可以支持更适合推理Inference 的 BFP16 格式。为了提升混合精度计算性能,D1 还支持低精度和高吞吐量的 8 位 CFP8 格式。图1:D1 芯片基本参数资料来源:Tesla AI Day,国信证券经济研究所整理TrainingTile:25 个 D1 芯片构成,晶圆级封装技术,自定义电源和散热模块。在训练模块 Training Tile设计上,传统的设计是将芯片分割和封装后集成在 PCB 上,这种情况下,芯片之间的通信通过芯片的 I/O和 PCB 走线发生,造成芯片出现低带宽和延迟增加,为了提升效率,特斯拉使用了台积电芯片先进封装技术 InFO_SoW(扇出晶圆工艺),在晶圆上直接集成 25 个 D1 芯片形成一个 Training Tile。在 D1 芯片互联上,每颗 D1 芯片有 576 个双向 SerDes 通道,分布在四周,可连接到其他 D1 芯片,单边带宽为 4TB/s。在 Tile 互联上,特斯拉在每一个 Tile 四周构建了一共 36TB/s 互联带宽;在散热方面:由于 25 个 D1 芯请务必阅读正文之后的免责声明及其项下所有内容证券研究报告3片晶圆级封装形式在业内属于规模较大的类型,整体功耗较高(单颗 D1 芯片的功耗在 400W 左右,25 个D1 芯片封装下的 Tile 功耗超过 10KW),特斯拉自定义了电压调制器模块和散热控制。图2:Traing Tile 互联展示图3:Training Tile 结构图资料来源:Tesla AI Day,Hot Chips,国信证券经济研究所整理资料来源:Tesla AI Day,Hot Chips,国信证券经济研究所整理从 System Tray 到 ExaPOD:每 6 个 Training Tile 构成一组 Sytem Tray,形成一个类似 DGX A100 的服务器结构,每个机柜内部放置 2 台 System Tray。一个完整的 ExaPOD 集群一共包括 10 个机柜,对应 20 个Tray,120 个 Tile,120*25=3000 个 D1 芯片。图4:System Tray 示意图图5:单个机柜示意图资料来源:Tesla AI Day,Hot Chips,国信证券经济研究所整理资料来源:Tesla AI Day,Hot Chips,国信证券经济研究所整理 ExaPOD 内部通信互联:DIP 与以太网交换机DIP:Dojo interface Processor,Dojo 接口处理器,完成 Tile 和 CPU 之间互联。DIP 本质上是一张特斯拉自研的 PCIe 网卡,采用特斯拉自定义的 TTP 协议,同时每张 DIP 卡提供 32GB HBM 内存和 800GB/s 内存带宽。通过 DIP 上的 PCIe 通道和 TTP 协议,可以实现 Tile 之间互联互通。在实际部署上,每一个 System Tray,上
[国信证券]:通信行业点评:特斯拉超算网络结构解析,关注互联与效率,点击即可下载。报告格式为PDF,大小0.91M,页数7页,欢迎下载。
