海外科技行业:算力需求高增,AI+ASIC突围在即
请务必阅读正文之后的免责条款部分 股票研究 海外专题研究(美国) 证券研究报告 股票研究 / [Table_Date] 2024.08.15 算力需求高增,AI ASIC 突围在即 [Table_Industry] 海外科技 [Table_Invest] 评级: 增持 [Table_Market] 交易数据 行业主要上市公司 市值(百万美元) 英伟达 2,857,044 博通 726,907 迈威尔科技 55,442 市值合计 3,639,393 [Table_Report] 相关报告 [table_Authors] 秦和平(分析师) 0755-23976666 qinheping027734@gtjas.com 登记编号 S0880523110003 本报告导读: AI 算力需求高增,AI ASIC 具备性价比、功耗等优势,且软硬件生态体系日趋成熟,未来有望实现高速增长。 投资要点: [Table_Summary] 投资建议:ASIC 针对特定场景设计,有配套的通信互联和软件生态,虽然目前单颗 ASIC 算力相比最先进的 GPU 仍有差距,但整个ASIC 集群的算力利用效率可能会优于可比的 GPU,同时还具备明显的价格、功耗优势,有望更广泛地应用于 AI 推理与训练。我们看好 ASIC 的大规模应用带来云厂商 ROI 提升,同时也建议关注定制芯片产业链相关标的。 AI ASIC 具备功耗、成本优势,目前仍处于发展初期,市场规模有望高速增长。目前 ASIC 在 AI 加速计算芯片市场占有率较低,预计增速快于通用加速芯片。据 Marvell 预测, 2023 年,定制芯片仅占数据中心加速计算芯片的 16%,其规模约 66 亿美元,预计 2028 年数据中心定制加速计算芯片规模有望超 400 亿美元。 ASIC 单卡算力与 GPU 仍有差距,但单卡性价比和集群算力效率优秀。ASIC 中算力相对较高的谷歌 TPU v6 和微软 Maia 100 算力约为 H100 非稀疏算力的 90%、80%,同时 ASIC 的单价显著低于 GPU,故而在推理场景呈现更高的性价比;ASIC 的芯片互联以 PCIe 协议为主,处于追赶状态,NVLink 协议更具优势;在服务器互联方面,ASIC 主要采用以太网,正追平英伟达的 IB 网络,目前 H100 集群可以做到 10 万卡规模,ASIC 中谷歌 TPU 相对更为领先,TPU v5p单个 Pod 可达 8960 颗芯片,借助软件能力,TPUv5e 可拓展至 5 万卡集群,且保持线性加速。由于 ASIC 专为特定场景设计,且云厂商对软件生态掌握程度也较高,ASIC 集群的算力利用率实际可能高于 GPU(如 TPU、MTIA 等)。 软件生态也是影响 AI 计算能力的重要因素,当前 CUDA 生态占据主导,ASIC 软件生态有望逐步完善。云厂商普遍具备较强的研发能力,均为 AI ASIC 研发了配套的全栈软件生态,开发了一系列的编译器、底层中间件等,提升 ASIC 在特定场景下的计算效率。此外,一些商用芯片厂商也推出了开源平台,如 ROCm 和 oneAPI,未来 ASIC 的软件生态将会愈发成熟、开放。 风险提示:AI 算法技术风险、生态系统建设不及预期、芯片研发不及预期、AI 产业发展不及预期 海外专题研究(美国) 请务必阅读正文之后的免责条款部分 2 of 41 目录 1. 投资建议 ...................................................................................................... 3 2. AI ASIC 市场处于发展初期,有望保持高速增长 ................................... 4 2.1. ASIC 是提性能、降功耗成本、增强供应多元化的重要选择 .......... 4 2.2. AI ASIC 处于发展初期,2028 年市场规模有望超 400 亿美元 ........ 6 2.3. IP 和产业链整合是芯片自研主要挑战,需借助外部厂商支持 ........ 7 3. 云厂商积极布局 ASIC,打造软硬件全栈生态 ........................................ 9 3.1. 谷歌 TPU ................................................................................................ 9 3.1.1. TPU 已进化至第六代,覆盖推理和训练场景 ............................. 9 3.1.2. TPU 擅长处理大量矩阵运算 ......................................................... 9 3.1.3. 创新引入 3D torus 架构和光交换机,增强拓展性与互联效率 11 3.1.4. 提供 Mulislice Training 全栈服务,支持大模型高效训练 ........ 13 3.2. Meta MTIA ........................................................................................... 14 3.2.1. MTIA 快速迭代,目前主要用于 AI 推理 .................................. 14 3.2.2. MTIA 旨在寻求计算、内存带宽的平衡 .................................... 15 3.2.3. MTIA v2 单机架容纳 72 颗芯片,机架间采用以太网通信 ..... 16 3.2.4. MTIA 具备完整软件生态,与 PyTorch 完全集成 ..................... 17 3.3. 微软 Maia ............................................................................................. 18 3.3.1. 微软 AI 芯片起步较慢,但有多年的技术积累 ......................... 18 3.3.2. Maia 100 算力性能领先,片内外内存存在一定不平衡 ........... 19 3.3.3. Ares 机架由 32 颗 Maia 100 组成,配置液冷系统 .................... 19 3.3.4. Maia 芯片内置 RMDA 以太网 IO,集群配置 25.6T 交换机 .... 20 3.3.5. 微软软件生态开发成熟度高,构建 Triton 开源平台 ................ 20 3.4. 亚马逊 Trainium ...........
海外科技行业:算力需求高增,AI+ASIC突围在即,点击即可下载。报告格式为PDF,大小4.31M,页数41页,欢迎下载。