半导体行业跟踪报告之十八:卡间互联成为AI芯片竞争焦点,华丰科技铜互连方案国内领先
敬请参阅最后一页特别声明 -1- 证券研究报告 2024 年 8 月 14 日 行业研究 卡间互联成为 AI 芯片竞争焦点,华丰科技铜互连方案国内领先 ——半导体行业跟踪报告之十八 电子行业 买入(维持) 作者 分析师:刘凯 执业证书编号:S0930517100002 021-52523849 kailiu@ebscn.com 分析师:孙啸 执业证书编号:S0930524030002 021-52523587 sunxiao@ebscn.com 行业与沪深 300 指数对比图 -27%-18%-9%1%10%08/2311/2302/2405/2408/24电子行业沪深300 资料来源:Wind 一、英伟达 GPU 卡间互联优势明显,发布 NVL72 采用铜连接方案 2024 年 GTC 大会,英伟达发布 B200 系列 GPU 与 NVL72 机柜。英伟达于美东时间 3 月 18 日举办 2024 GTC 大会,发布了多项重要产品。公司 CEO 黄仁勋介绍了运行 AI 模型的新一代芯片和软件,并正式推出名为 Blackwell 的新一代AI 图形处理器(GPU),预计将在今年晚些时候发货。 英伟达每两年更新一次其 GPU 架构,实现性能的飞跃。过去一年发布的许多AI 模型都是在该公司的 Hopper 架构上训练的,该架构被用于 H100 等芯片,于 2022 年宣布推出。Blackwell 平台能够在万亿参数级的大型语言模型(LLM)上构建和运行实时生成式 AI,而成本和能耗比前身低 25 倍。 图表 1:英伟达 Blackwell GPU 芯片 资料来源:英伟达 GTC 大会 英伟达称,Blackwell 拥有六项革命性的技术,可以支持多达 10 万亿参数的模型进行 AI 训练和实时 LLM 推理: 1)全球最强大的 AI 芯片。Blackwell 架构 GPU 由 2080 亿个晶体管组成,采用量身定制的台积电 4 纳米工艺制造,两个 reticle 极限 GPU 裸片将 10 TB/秒的芯片到芯片链路连接成单个统一的 GPU。 2)第二代 Transformer 引擎:结合了 Blackwell Tensor Core 技术和TensorRT-LLM 和 NeMo Megatron 框架中的英伟达先进动态范围管理算法,Blackwell 将通过新的 4 位浮点 AI 支持双倍的计算和模型大小推理能力。 3)第五代 NVLink:为提高数万亿参数和混合专家 AI 模型的性能,最新一代英伟达 NVLink 为每个 GPU 提供了突破性的 1.8TB/s 双向吞吐量。 要点 敬请参阅最后一页特别声明 -2- 证券研究报告 电子行业 4)RAS 引擎:Blackwell 支持的 GPU 包含一个专用引擎,实现可靠性、可用性和服务性。此外,Blackwell 架构还增加了芯片级功能,利用基于 AI 的预防性维护进行诊断和预测可靠性问题。这可以最大限度地延长系统正常运行时间,并提高大部署规模 AI 的弹性,使其能连续运行数周甚至数月,并降低运营成本。 5)安全人工智能:先进的机密计算功能可在不影响性能的情况下保护 AI 模型和客户数据,并支持新的本机接口加密协议,这对于医疗保健和金融服务等隐私敏感行业至关重要。 6)解压缩引擎:专用解压缩引擎支持最新格式,加快数据库查询,提供数据分析和数据科学的最高性能。未来几年,在企业每年花费数百亿美元的数据处理方面,将越来越多地由 GPU 加速。 此外,英伟达发布了 GB200 NVL72,把 18 个 Blackwell 计算节点(Compute Tray)组合在一起,形成新一代计算单元。 图表 2:GB200 NVL72 资料来源:英伟达 GTC 大会 GB200 NVL72 中一共包含了 9 个 NVLink 交换节点(Switch Tray),每个交换节点中配置了 2 颗 NVLink Switch 芯片,向外提供 14.4TB/s 的聚合带宽。 图表 3:NVLink Switch Chip 图表 4:NVIDIA GB200 Internal NVLink Switch 资料来源:Servethehome 资料来源:Servethehome 如果要训练一个 1.8 万亿参数量的 GPT 模型,需要 8000 张 Hopper GPU,消耗15 兆瓦的电力,连续跑上 90 天。但如果使用 Blackwell GPU,只需要 2000 张,同样跑 90 天只要消耗四分之一的电力。除了训练之外,生成 Token 的成本也会随之降低。GB200 NVL72 训练和推理性能相比于等同数量的 H100 GPU 表现提升 4 倍和 30 倍。 敬请参阅最后一页特别声明 -3- 证券研究报告 电子行业 从 NVLINK 1.0 到 NVLINK 5.0,英伟达 GPU 卡间互联快速演进。作为英伟达的核心技术,NVLink 在 GPU 网络通信系统中占据重要地位,其对于提升数据传输效率和处理性能具有显著作用。 NVLink 技术实现了 GPU 与支持该技术的 CPU 之间以及多个 GPU 之间的高带宽直接连接,从而大幅提升了整体性能。然而值得注意的是,NVLink 技术并未向行业开放,这在一定程度上影响了其他厂商在相关领域的竞争力。 英伟达不仅拥有出色的 GPU 和软件,还在跨多个 GPU 和系统横向扩展工作负载方面拥有丰富的技术积累。这些技术包括芯片上和封装上互连、用于服务器或pod 中 GPU 到 GPU 通信的 NVLink、用于超 pod 扩展的 Infiniband 以及连接到更庞大基础设施的以太网等。NVLink 技术使得 CPU 与 GPU 之间能够实现快速数据交换,从而提升了整个计算系统的数据吞吐量,有效克服了加速计算领域的一大瓶颈。 随着英伟达 GPU 芯片的更新迭代,NVLink 技术也在不断进化。从 2017 年的NVLink 2.0 到 2020 年的 NVLink 3.0,再到 2022 年的 NVLink 4.0,每一次更新都带来了更高的性能和更广泛的应用场景。 图表 5:NVLink 升级过程 资料来源:英伟达,腾讯网 在 2024 年的 GTC 大会上,英伟达推出了全新的 NVLink 5.0 技术,并与最新一代 Blackwell 芯片一同亮相。这一技术极大地提升了大型多 GPU 系统的可扩展性,单个 Blackwell Tensor Core GPU 支持多达 18 个 NVLink 100GB/s 连接,总带宽达到 1.8TB/s,较上一代产品提升了两倍之多。此外,NVLink 5.0 技术还支持跨节点扩展,通过 NVLink Switch 以及铜缆互联实现无缝、高带宽、多节点 GPU 集群的构建,从而满足数据中心级别的大型 GPU 需求。 利用 NVLink 技术,多服务器集群能够平衡 GPU 通信与增加的计算量,从而实现了更高的性能和效率。例如,在 GB200 NVL72 等服务器平台上,NVLink 技术的应用使得
[光大证券]:半导体行业跟踪报告之十八:卡间互联成为AI芯片竞争焦点,华丰科技铜互连方案国内领先,点击即可下载。报告格式为PDF,大小1.54M,页数11页,欢迎下载。



