电子行业存储:AI推理带来需求爆发、驱动范式升级,周期能见度大幅拉长
分析师:王芳 S0740521120002,杨旭 S0740521120001,康丽侠S0740525040001证券研究报告日期:2026年05月16日【中泰电子】存储:AI推理带来需求爆发、驱动范式升级,周期能见度大幅拉长1摘要n存储是AI推理的核心瓶颈,驱动存储需求爆发、存储范式改进。ØLLM 推理的解码阶段本质是memory-bound,核心存储负载包括:模型权重、KV Cache、激活值、RAG 向量库等。 相较于模型权重等静态张量数据,KV Cache是随上下文长度和并发数动态膨胀的张量数据,推理性能(TTFT / TPS)高度依赖对KV Cache的保存和对KV Cache的管理效率。在传统冯·诺依曼架构下,大模型推理时的大量高维张量数据、Transfomer的自注意力机制均加剧了内存墙问题,数据量巨大、搬运成本高,严重拖慢推理效率,存储使访存带宽与延迟逐步成为制约系统吞吐与响应性能的核心瓶颈,因此黄仁勋一直在说:“GPU 大部分时间都在等数据,而不是在计算”,“计算能力增长远快于内存带宽,GPU 经常处于饥饿状态(starving for data)。”而提升存储带宽和容量可以显著增强推理性能、降低推理成本,“以存代算”是必然趋势。Ø随着模型越来越大、上下文越来越长、使用人数增加等,AI推理带来HBM、DRAM、SSD、HDD的需求全面爆发,同时面对大模型推理的访存受限问题,产业界也在推进存储器性能升级和存储层级优化,存储从单一层级向高带宽+大容量+分级管理的协同架构演进,存储与计算的关系也由传统解耦逐步走向协同优化。1)高带宽存储器解决方案:包括HBM、WOW 3D堆叠DRAM、HBF。2)优化存储分级管理系统:CXL内存池化技术,Prefill和Decode阶段的分机柜部署(英伟达GTC2026推出的最新方案)。n在前期价格涨幅大、行业看接下来2年供需紧张的情况下,对合约价的跟踪会从“从价格还能涨多少”转向“价格高位保持多久”,预计合约价26年全年上涨,27年至少保持高位,客户与原厂签多年长协拉长周期。Ø现货价占市场10%左右:近期部分现货市场价格有回调10-20%左右,主要系存储模组的现货价与合约价价差大,贸易商获利了结心理强。Ø合约价占市场90%左右:目前北美CSP因担心拿不到产能,陆续与原厂签订3-5年长约,国内模组厂也有签,客户与原厂基本达成价格共识,周期能见度拉长。此前周期中合约价上涨3-4个季度就会回落,主要系由消费电子库存周期主导,本轮周期由AI需求驱动,服务器占存储的敞口达到50%-60%,行业供需高度紧张,预计26年全年价格上涨,但是逐季价格收敛,预计27年价格也保持高位。n存储是AI硬件板块中短期业绩确定性最强,供需在可见的2年内持续紧张,同时估值中枢有提升的潜在可能性。Ø服务器占存储敞口提升到50%-60%,存储的容量和性能是AI推理的核心瓶颈环节,同时是AI硬件业绩确定性中短期最强、估值最低的方向。n投资建议:建议关注:1)弹性模组及主控:德明利、江波龙、佰维存储、大普微、联芸科技等;2)兆易创新、普冉股份、东芯股份、北京君正、澜起科技、聚辰股份、恒烁股份等;3)设备:微导纳米、拓荆科技、中微公司、精智达、华海清科、中科飞测、京仪装备、骄成超声、百傲化学、北方华创等。4)光刻机产业链:茂莱光学、汇成真空、波长光电、阿石创、联合化学、富创精密、永新光学等。n风险提示:1)长鑫长存产能释放加剧竞争的风险。2)AI CAPEX不及预期的风险。3)数据更新不及时,模型测算偏差风险。目 录一、AI推理带来存储需求爆发和存储范式的改进二、看未来2年供需持续紧张,原厂与客户签订长协三、存储是AI硬件估值最低、业绩确定性最强的方向31.1 AI推理带来存储需求爆发4来源:《大模型时代下的存储系统挑战与技术发展》,《面向深度学习的数据存储技术综述》等,中泰证券研究所n大模型训练和推理对存储需求存在区别:训练:基于提前备好的海量静态数据集,数据总量可控、规则、可预测,偏向一次性学习过程,但由于数据集规模大、计算密集,单任务维度下显存消耗、整体存储容量需求远大于推理;推理:数据实时输入、请求粒度小、并发高、上下文长度差异大、延迟要求严格,偏向持续性的应用过程,为避免重复计算需保留大量KV cache,其在每一次token生成都会访问、对延迟高度敏感、会随序列长度动态扩展,是显存占用和带宽消耗的核心因素,因此在智能体AI普及带来用户爆发式增长、参数规模扩大、应用复杂度提升的背景下,数据会快速动态膨胀,预计远期在数据中心中,推理存储需求占比(2030年预计70%+)远超训练。Ø大模型训练:1)运行机制:计算密集型工作,系统需反复读写、写入巨量数据,数据流动频率高、负载持续、IO密度高,但是训练阶段数据集通常是固定规模,不随时间线性增长。2)存储介质:训练样本通常存在HDD/SSD,模型参数、激活值等核心计算内容的加载与处理在HBM/GDDR(GPU 显存),DRAM用于扩展内存、保存部分模型权重,SSD作为补充设备,用于保存中间文件(例如检查点文件、超出HBM/DRAM的数据、不活跃Token)。Ø大模型推理:1)运行机制:存储需求由“规模扩张”与“动态波动”共同驱动。随大模型参数规模扩大以及应用复杂度提升,推理侧存储需求呈现显著非线性增长特征。2)存储介质:训练好的模型首先存储在SSD,推理时从SSD加载至DRAM,再从DRAM加载至HBM(用户输入query及生成token相关计算),HBM的KV cache亦持续更新支持实时推理,若上下文过长导致DRAM无法容纳,继续缓存至SSD,推理结束后,完整的Session数据、用户日志、输入输出等数据在HDD/SSD长期储存。图表:大模型训练和推理流程图表:大模型不同阶段对存储介质的需求存储层级存储介质典型带宽 / 延迟单节点容量范围典型用途训练使用推理使用经典应用场景部署位置热层HBM / GDDR(GPU 显存)2–4 TB/s / <1μs80–192GB/GPU 模型参数、KV Cache、激活值核心使用核心使用Transformer 层计算、注意力矩阵缓存GPU 板卡内热层DDR5 / MRDIMM(系统内存)200–800 GB/s / ~100ns512GB–4TB / 节点中间状态、微批数据、缓存热权重使用使用CPU 预处理、KV Cache 扩展GPU 主机或 CPU 节点内温层NVMe SSD(PCIe 4/5)5–14 GB/s / 10–100μs8–64TB / 节点 模型权重加载、Embedding 索引、Session 缓存高频使用高频使用模型权重存取、推理上下文缓存AI 推理 / 训练服务器本地冷层HDD(SATA/SAS)200 MB/s / 5–10ms10–20TB / 盘日志、归档、语料原始数据、历史模型;仅用于离线阶段 / 冷备份仅用于离线阶段不使用训练语料原始存储、日志归档、备份独立存储服务器或对象存储集群(NAS/OSS/S3 冷层)51.1 AI推理带来存储需求爆发图表:大模型训练和推理对存储需求的区别训练推理特征计算密集型,计算量约推理2-3倍延迟敏感型计算流程前向传播、反
[中泰证券]:电子行业存储:AI推理带来需求爆发、驱动范式升级,周期能见度大幅拉长,点击即可下载。报告格式为PDF,大小7.22M,页数44页,欢迎下载。



