电子行业AI系列之NPU：专为端侧AI而生的神经网络加速器

分析师：王芳 S0740521120002，杨旭 S0740521120001，李雪峰 S0740522080004，丁贝渝 S0740524090001日期：2025年4月20日【中泰电子】AI系列之NPU：专为端侧AI而生的神经网络加速器1目录一、专为端侧AI而生的神经网络加速器1.1、与GPU定位云端AI不同，NPU是端侧AI时代新需求1.2、NPU是专用加速芯片，适用于乘法累加运算1.3、NPU显著提升AI模型运行效率二、卡位端侧下游，迎需求爆发三、产业趋势：近存计算大趋势，3D DRAM+NPU方案有望受益四、海外大厂持续迭代推动端侧AI布局，国产厂商加速布局五、投资建议及风险提示23来源：《AI芯片：前沿技术与创新未来》，中泰证券研究所◼人工智能的发展主要依赖两个领域的创新和演进：一是模仿人脑建立起来的数学模型和算法，其次是半导体集成电路AI芯片。AI的发展一直伴随着半导体芯片的演进，1989年贝尔实验室的杨立昆（Yann LeCun）等人一起开发了可以通过训练来识别手写邮政编码的神经网络，但那个时期训练一个深度学习卷积神经网络（Convolutional Neural Network，CNN）需要长达3天，因此无法实际使用。硬件计算能力的不足，导致了当时AI科技泡沫的破灭。◼更高效的架构有利于推动AI加速成熟。英伟达早在1999年就发明了GPU，但直到2009年斯坦福大学才发表论文介绍了如何利用现代GPU实现远超过多核CPU的计算能力（超过70倍），把AI训练时间从几周缩短到了几小时。算力、模型一直是AI发展的要素，而芯片所代表的算力则是人工智能的底层基石。图表：AI人工智能与半导体计算芯片发展历程19401960198020002020突破模型“学习”的心理研究视觉皮层海马位置细胞的时间编码第一个晶体管感知器第一块芯片第一块CPU (MCU)Hopfield网络第一块FPGA神经网络芯片第一块GPU新的DNN算法基于深度学习的AI芯片类脑芯片4来源：《Competition and innovation in the microprocessor industry: Does AMD spur Intel to innovate more》，JPR，Gartner，IDC，中泰证券研究所时间1970s-1980s1990s2000s2010s2020s阶段性能提升初期竞争加剧，应用拓展至个人/家用进入多核时代，云服务兴起异构兴起，数据中心需求增长架构创新，ARM进军PC和服务器技术/供给端CPU由4位发展至32位，晶体管数量发展至120万，传统处理器架构基本完善。•1971-Intel4004-CPU诞生；•1978-Intel8086-奠定X86指令集架构；•1989-Intel80486实现了5级标量流水线-CPU初步成熟。增至64位，晶体管数量发展至千万级；高速缓存技术取得突破。•1993年Intel 推出Pentium系列采用了超标量架构，能够同时执行多条指令，显著提高了处理速度；•1996年Intel增加MMX技术以增强对多媒体数据的处理能力；首次采用超标量指令流水结构，被后续AMD锐龙和Intel酷睿等沿用；•多家厂商加入竞争；1995年AMD推出支持X86的K5处理器，1994年IBM推出PowerPC 601 处理器被应用于苹果电脑，95年起PowerPC 603e被广泛应用于笔电。进入多核时代，工艺制程进步至纳米级（最高至32nm），主频突破1Ghz，采用多级缓存、超线程等技术，计算性能大幅提升。•2000年Intel发布Pentium 4，AMD 发布Athlon，突破1GHz；•2001年IBM发布首款多核处理器；•2002年我国发布首枚通用CPU；•05-06年AMD/Intel 陆续推出双核/多核处理器；•07-10年，从双核发展至八核乃至更多。工艺制程由32nm进步至2020年的10nm；CPU 主频突破3GHz，提升至16核心、32线程；CPU趋于模块化的设计理念；CPU与GPU走向集成。•2010年Intel推出首款桌面级6核处理器•2011年AMD推出Bulldozer架构FX系列，采用模块化设计；•2016年左右多核技术走向普及（Intel/AMD堆核心数）；•2017年AMD推出了Ryzen系列处理器，采用全新Zen架构（chiplet设计），在高性能市场与Intel激烈竞争——AMD市占率触底。架构继续优化，ARM应用至PC，工艺制程进步至5nm；•2020年Intel工艺瓶颈（7nm延期），导致Tick-Tock放缓，推动行业转向架构优化；•2020年苹果M1发布，5nm工艺，采用ARM架构，能效超越同期Intel笔记本CPU；•2021年Arm发布Cortex-X2/A710架构，支持v9指令集，性能提升30%；•2022年龙芯中科发布3A6000系列，基于LoongArch自主指令集，国产CPU摆脱X86/ARM依赖；•2024年，高通发布骁龙X Elite，应用ARM架构，能效优势显著。应用/需求端•PC-B端为主，少数走向小型企业乃至消费者•PC在家庭与办公场景广泛使用•Windows 操作系统普及，办公软件和游戏高速发展•云服务兴起（06年诞生，09年起步入快速发展阶段）促进服务器需求•并行计算软件发展•人工智能、深度学习等需求带动数据中心高增长。•AI端侧加速发展•AI服务器需求爆发出货量CAGR*•/•+22%（1993-2000）•+8%•2010-2016：-2.4%•2016-2020：+7.5%•-8.9%（2020-2023）图表：CPU发展脉络梳理*出货量数据口径：2016年以前为PC-based CPU，2016年以后为PC+服务器 CPU◼CPU（Central Processing Unit）中央处理器：是计算机的运算和控制核心（Control Unit)，是信息处理、程序运行的最终执行单元，主要功能是完成计算机的数据运算以及系统控制功能。◼CPU早期的高增长主要源自技术进步以及由此带来的应用拓展，2010年后则由需求端整体带动。CPU历史上增速最高的时期是1990s，出货量CAGR达到22%。供给端：AMD、IBM等芯片大厂加入竞争，多项核心技术取得重要突破；应用端：PC由商用为主，向家庭场景普及，生产力（办公软件）与娱乐（游戏）应用均蓬勃发展。2000s时代亦有良好增长，CAGR 8%，技术的加速迭代带来应用场景突破，云服务兴起。2010年以后，CPU的增长主要在2020-2021年，疫情期间远程办公场景带来的PC和服务器需求增加。5来源：《The history of GPU——Eras and Environment》，中泰证券研究所◼与CPU串行计算不同，GPU侧重并行计算。GPU（Graphics Processing Unit）最初是为了满足计算机游戏等图形处理需求而开发的，但凭借高并行计算和大规模数据处理能力，逐渐开始用于通用计算；GPGPU （通用GPU）减弱了GPU图形显示部分的能力，将其余部分全部投入到通用计算中，同时增加了专用向量、张量、矩阵运算指令，提升了浮点运算的精度和

立即下载

信息科技

2025-05-07

中泰证券

60页

5.03M

[中泰证券]:电子行业AI系列之NPU：专为端侧AI而生的神经网络加速器，点击即可下载。报告格式为PDF，大小5.03M，页数60页，欢迎下载。

本报告共60页，只提供前10页预览，清晰完整版报告请下载后查看，喜欢就下载吧！

立即下载

本报告共60页，只提供前10页预览，清晰完整版报告请下载后查看，喜欢就下载吧！

立即下载

水滴研报所有报告均是客户上传分享，仅供网友学习交流，未经上传用户书面授权，请勿作商用。

电子行业AI系列之NPU：专为端侧AI而生的神经网络加速器

关于我们

联系我们

电子行业AI系列之NPU：专为端侧AI而生的神经网络加速器

关于我们

联系我们

小程序

公众号