电子行业HBM:AI的内存瓶颈,高壁垒高增速
发布日期:2024年3月9日HBM:AI的内存瓶颈,高壁垒高增速分析师:刘双锋liushuangfeng@csc.com.cnSAC 编号:S1440520070002行业深度证券研究报告本报告由中信建投证券股份有限公司在中华人民共和国(仅为本报告目的,不包括香港、澳门、台湾)提供。在遵守适用的法律法规情况下,本报告亦可能由中信建投(国际)证券有限公司在香港提供。同时请务必阅读正文之后的免责条款和声明。研究助理:何昱灵heyuling@csc.com.cn分析师:章合坤zhanghekun@csc.com.cnSAC 编号:S1440522050001分析师:孙芳芳sunfangfang@csc.com.cnSAC 编号:S14405200600012摘要• HBM是限制当前算力卡性能的关键因素,海力士、三星、美光正加大研发投入和资本开支,大力扩产并快速迭代HBM,预计2024年HBM3e 24GB/36GB版本将量产/发布,内存性能进一步提高。HBM供需将持续紧俏,市场规模高速增长。通过分析生产工艺(TSV、键合等)和技术演进方向(先进制程、叠层),我们认为封装测试、前道和后道先进封装的设备和材料将是HBM主要受益方向。• HBM是当前算力的内存瓶颈。存储性能是当下制约高性能计算的关键因素,从存储器到处理器,数据搬运会面临带宽和功耗的问题。为解决传统DRAM带宽较低的问题,本质上需要对单I/O数据速率和位宽进行提升。HBM由于采用了TSV、微凸块等技术,DRAM裸片、计算核心间实现了较短的信号传输路径、较高的I/O数据速率、高位宽和较低的I/O电压,因此具备高带宽、高存储密度、低功耗等优势。即便如此,当前HBM的性能仍然跟不上算力卡的需求。• 三大原厂持续加大研发投入,HBM性能倍数级提升。随着技术的迭代,HBM的层数、容量、带宽指标不断升级,目前最先进的HBM3e版本,理论上可实现16层堆叠、64GB容量和1.2TB/s的带宽,分别为初代HBM的2倍、9.6倍和4倍。从Trendforce公布的HBM Roadmap来看,2024年上半年,海力士、三星、美光均会推出24GB容量的HBM3e,均为8层堆叠。2024年下半年,三家厂商将推出36GB版本的HBM3e,或为12层堆叠。此外,HBM4有望于2026年推出。• HBM制造集成前道工艺与先进封装,TSV、EMC、键合工艺是关键。HBM制造的关键在于TSV DRAM,以及每层TSV DRAM之间的连接方式。目前主流的HBM制造工艺是TSV+Micro bumping+TCB,例如三星的TC-NCF工艺,而SK海力士则采用改进的MR-MUF工艺,在键合应力、散热性能、堆叠层数方面更有优势。目前的TCB工艺可支撑最多16层的HBM生产,随着HBM堆叠层数增加,以及HBM对速率、散热等性能要求的提升,HBM4开始可能引入混合键合工艺,对应的,TSV、GMC/LMC的要求也将提高。3摘要• AI刺激服务器存储容量扩充,HBM需求强劲。随着云计算厂商将更多资本开支投入AI基础设施,AI服务器ODM对2024年展望乐观,预计2024年AI服务器出货量继续大幅增长。相较于一般服务器而言,AI服务器多增加GPGPU的使用,以NVIDIA A100/H100 80GB配置8张计算,HBM用量约为640GB,超越常规服务器的内存条容量,H200、B100等算力卡将搭载更高容量、更高速率HBM。我们测算,随着算力卡单卡HBM容量提升、算力卡出货量提升、技术迭代带来单GB HBM单价提升,2023年HBM市场规模为40亿美元,预计2024年增长至148亿美元,2026年增长至242亿美元,2023~2026年CAGR为82%。• 目前HBM供应链以海外厂商为主,部分国内厂商打入了海外存储/HBM供应链。国产HBM正处于0到1的突破期,HBM供应主要为韩系、美系厂商,国内能获得的HBM资源较少。随着国产算力卡需求快速增长,对于算力卡性能至关重要的HBM也有强烈的供应保障诉求和国产化诉求。建议关注:封测、设备、材料等环节。• 相关标的:封测:通富微电、长电科技、深科技;设备:中微公司、北方华创、拓荆科技、芯源微、赛腾股份、华海清科、精智达、新益昌;材料:雅克科技、联瑞新材、华海诚科、强力新材、天承科技、飞凯材料、壹石通、兴森科技;代理:香农芯创。• 风险提示:AI技术落地不及预期;国际环境变化影响;宏观环境的不利因素;市场竞争加剧风险。目录 CONTENTS一、HBM:算力的内存瓶颈二、SK海力士HBM工艺分析:TSV、EMC、混合键合成趋势三、市场测算:未来三年CAGR超80%四、相关标的:设备、材料迎来新成长五、风险提示5CPU拥有多级缓存架构,HBM属于内存环节• 现代CPU为了提升执行效率,减少CPU与内存的交互(交互影响CPU效率),一般在CPU上集成了多级缓存架构。• CPU缓存即高速缓冲存储器,是位于CPU与主内存间的一种容量较小但速度很高的存储器。由于CPU的速度远高于主内存,CPU直接从内存中存取数据要等待一定时间周期,Cache中保存着CPU刚用过或循环使用的一部分数据,当CPU再次使用该部分数据时可从Cache中直接调用,减少CPU的等待时间,提高了系统的效率。• 从CPU到用户数据,需经历“寄存器>SRAM>内存>SSD或HDD” 的路径,HBM属于内存的一种。数据来源:中国闪存市场,中信建投图表:CPU的多级缓存架构HBM6存储性能是当下制约高性能计算的关键因素• 内存墙(传输带宽慢或容量有限)是算力提升的重要瓶颈。• 从存储器到处理器,数据搬运会面临2个问题:(1)数据搬运慢;(2)搬运能耗大。数据来源:知存科技,中信建投图表:数据传输的速率及能耗限制算力性能发挥7存储性能是当下制约高性能计算的关键因素数据来源:riselab,中信建投• 算力的增速远大于存储的增长速度。目前绝大部分的计算系统基于冯诺依曼计算机体系,而该体系下存储与计算单元分离,需要通过总线不断在存储与处理器之间传输数据,因此存储的带宽制约了算力的利用效率。此外,从外部处理器到内存之间不断进行数据的搬运,搬运时间往往是运算时间的成百上千倍,产生的无用能耗过多。图表:算力的增速远超存储与互连带宽的增速8存储性能是当下制约高性能计算的关键因素数据来源:riselab,中信建投• 模型体量的增速远大于算力卡存储容量的增速。随着 Transformer 模型的大规模发展和应用,模型大小每两年平均增长了240倍,而单个GPU内存容量仅以2年2倍的速度扩大。为了摆脱单一算力芯片内存有限的问题,可以将模型部署于多颗GPU上运行,但在算力芯片之间移动数据,仍然比单一芯片内部移动数据低效,因此算力芯片内存容量的缓慢增速制约了更大规模的模型应用。图表:大模型体积的增速远高于算力芯片存储容量的增速9HBM:基于TSV技术获得的高带宽内存,已成为高性能计算的首选• 如同闪存从2D NAND向3D NAND发展,DRAM也正在从2D向3D技术发展,HBM(High BandwidthMemory,高带宽存储)为主要代表产品。从结构上看其特点有:(1)3D堆叠结构并由TSV互连:HBM
[中信建投]:电子行业HBM:AI的内存瓶颈,高壁垒高增速,点击即可下载。报告格式为PDF,大小8.15M,页数50页,欢迎下载。
