电子行业AI系列之CPU:推理时代迎价值重估

【中泰电子】AI系列之CPU:推理时代迎价值重估1分析师:王芳 S0740521120002,杨旭 S0740521120001,李雪峰 S0740522080004证券研究报告日期:2026年06月01日2摘要■推理是未来AI算力的核心,CPU将迎来价值重估。Ø算力结构转型正从以训练为主转向以推理为核心——当前70%以上算力用于集中式训练,未来70%以上算力将用于分布式推理,推理需求规模有望达到训练阶段的5-10倍。Ø训练与推理的底层差异决定CPU在训练场景是“辅助”,在推理场景可以成为"主力”——1)基于Little's Law(吞吐=并发数/延迟),CPU和GPU选择了“压低延迟”和“堆高并发”的不同路线。2)训练以大规模稠密矩阵运算为主,大部分时间GPU在计算,CPU仅承担数据搬运+集群调度,时间占比10-30%;推理具有碎片化、长尾化、延迟敏感特点,CPU在Decode、稀疏计算、长上下文管理、Embedding等多个任务中更具竞争力,可完成70%以上运行负载。Ø对硬件的不同要求推动推理时代CPU与GPU硬件结构配比发生重大转变:在AI数据中心的部署比例,CPU:GPU已从过去的1:8收紧至当前的1:4,并可能在Agent时代进一步收敛至1:1甚至更低;当前市场端CPU缺货涨价潮充分印证该产业趋势,CPU增量逻辑确定。n服务器CPU在指令集、核心数、内存子系统三个维度发生根本性进化以适应AI需求,未来将继续演进。1)指令集从“通用向量”向“专用矩阵”演进,引入AMX(tile计算)单核AI算力较前代提升24x。2)核心数由28/32提升至192/288,密度实现6-10倍提升,内存子系统容量和带宽也实现2.25倍增长。三个维度的协同升级(1+1+1>3)对应AI推理的三大核心需求—矩阵运算能力、并发处理能力、内存容量与带宽,让CPU进化为"AI友好型硬件"。nAgentic AI是CPU爆发的核心驱动。传统LLM是大Batch吞吐,Agent是高频小请求,工作负载特征反转导致GPU算力闲余,CPU处理时间占比上升;工具调用、沙箱运行、多智能体调度等环节天然依赖CPU架构,同时长上下文+RAG检索场景下,CPU+大DDR5方案具有突出性价比优势,且进行RAG检索时主力算力在CPU,检索频率也翻倍提升,CPU需求同步放大。n行业格局与未来空间:当前x86和ARM占据市场主要份额,其中x86占比90%、ARM占比10%。长期看,受益于推理+Agent,CPU TAM结构性重估,据BofA Global Research预测,25-30年服务器CPU规模预计将由266亿美元增长至1252亿美元,CAGR约36%,出货量预计由2920万颗增长至9500万颗,单颗价值量也将明显提升,ASP预计由900多美元提升至1317美元;同时,x86将凭生态优势在云上仍占主要地位,ARM则凭能效、AI协同等优势在Agent、端侧场景发力,叠加Hyperscaler自研数据中心ARM CPU放量,其渗透率将不断提升——至30年提升到44%,具有更强alpha的增速。n投资建议:推理底层驱动CPU硬件配比提升,Agent大趋势推动CPU核心数及总量需求增长,打开远期成长空间。建议关注——1)芯片:海光信息、禾盛新材、龙芯中科等;2)供应链:广合科技、澜起科技、通富微电、聚辰股份等。n风险提示:行业需求不及预期;大陆厂商技术进步不及预期;中美贸易摩擦加剧;研报信息更新不及时;测算偏差风险;数据主观筛选风险。目 录一、模型由训练转向推理:CPU将迎来价值重估二、CPU技术演进:从通用计算到AI增强三、AI Agent时代的CPU需求爆发逻辑四、CPU两大阵营对比:x86 vs ARM五、产业链与主要国产CPU厂商六、投资建议&风险提示344.16139.58393.55050100150200250300350400450201920242030E41.1 推理是未来AI算力的核心图表:大模型算力结构中推理需求显著增长图表:2019-2030E全球AI推理服务器市场规模(单位:亿美元)■算力结构转型正从以训练为主转向以推理为核心——当前70%以上算力用于集中式训练,未来70%以上算力将用于分布式推理,这一观点已从“前瞻性观点”变为“行业共识”。多模态模型、Agentic AI等创新形态的加速落地将催生实时推理需求的新一轮结构性增长,推理需求规模有望达到训练阶段的5-10倍;ØNVIDIA CEO Jensen Huang在24-26年多次公开表述:“推理市场的总量最终将是训练市场的几个数量级倍数”;ØOpenAI、Anthropic等头部模型公司的推理算力消耗已远超训练算力(推理占比已达85%、训练仅15%),据Tech News,全球Hyperscaler 26年Capex指引中,推理基础设施投资增速首次超过训练;Ø据Global Info Research预测,2024年全球AI推理服务器市场规模约139.6亿美元,至2030年市场规模将达393.6亿美元,期间年复合增长率CAGR为18.9%。■AI由训练到推理的转变本质上是其从"研发阶段"进入"规模化部署阶段"—— 训练是少数巨头的一次性投入,推理是亿万用户每天产生的持续消耗。30%70%70%30%0%20%40%60%80%100%未来2025traininginference复合年均增长率18.9%复合年均增长率25.9%来源:电脑报少年派,NVIDIA GTC,《美国云厂商资本开支与AI算力产业链投资分析报告》,Tech News,中国信通院,中泰证券研究所 51.1 CPU和GPU本质是计算路径差异■CPU与GPU底层架构差异来源于计算路径:CPU是延迟优化(Latency-oriented)的标量处理器——追求"单线程把一件复杂的事尽快做完";GPU是吞吐优化(Throughput-oriented)的向量处理器——追求"用极大并行把同一件简单的事做很多次",这种分野根植于Little's Law:吞吐 = 并发数/延迟。CPU走的是"压低延迟"路线,GPU走的是"堆高并发"路线。任何一种架构,本质上都是这个权衡的不同选择。图表:CPU和GPU核心对比维度CPU (Intel Xeon 6/AMD EPYC Turin)GPU (NVIDIA H100/B200)设计哲学延迟优先(Latency-Oriented)吞吐量优先(Throughput-Oriented)架构特征指令集架构以标量计算为主,辅以SIMD扩展指令集采用SIMT执行模型,以计算单元或流式多处理器(SM)为组织单位。将绝大部分晶体管用于ALU,控制逻辑极简,通过线程级并行(TLP)来隐藏内存访问延迟,具备高内存带宽、矩阵计算加速(Tensor Core)、线程束(Warp)调度等核心特征核心数量64-288核(重核)H100: 16,896 CUDA核 + 528 Tensor核单核晶体管预算缓存与控制占比更高(60%-80%)执行单元与带宽占比更高(65%-85%)执行模型OoO乱序执行 + 分支预测 + 推测执行SIMT (Single Instruction Mul

立即下载
信息科技
2026-06-02
中泰证券
53页
7.26M
收藏
分享

[中泰证券]:电子行业AI系列之CPU:推理时代迎价值重估,点击即可下载。报告格式为PDF,大小7.26M,页数53页,欢迎下载。

本报告共53页,只提供前10页预览,清晰完整版报告请下载后查看,喜欢就下载吧!
立即下载
本报告共53页,只提供前10页预览,清晰完整版报告请下载后查看,喜欢就下载吧!
立即下载
水滴研报所有报告均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。
相关报告
热门报告
加入社群
回顶部
报告群
公众号
小程序
在线客服
收起