电子行业“AI的裂变时刻”系列报告9:对国产推理算力芯片厂商的启示,假如L40S使用HBM显存?
识别风险,发现价值 请务必阅读末页的免责声明 1 / 18 [Table_Page] 行业专题研究|电子 2024 年 4 月 23 日 证券研究报告 [Table_C ontacter] 本报告联系人: [Table_Title] “AI 的裂变时刻”系列报告 9 假如 L40S 使用 HBM 显存? ——对国产推理算力芯片厂商的启示 [Table_Author] 分析师: 王亮 分析师: 耿正 分析师: 任思儒 SAC 执证号:S0260519060001 SFC CE.no: BFS478 SAC 执证号:S0260520090002 SAC 执证号:S0260524030001 021-38003658 021-38003660 021-38003660 gfwangliang@gf.com.cn gengzheng@gf.com.cn rensiru@gf.com.cn 请注意,耿正,任思儒并非香港证券及期货事务监察委员会的注册持牌人,不可在香港从事受监管活动。 [Table_Summary] 核心观点: ⚫ 前言。AIGC 大时代序幕开启,国产推理算力芯片厂商迎来历史机遇;但基于大语言模型的 AIGC 行业需要什么样的推理算力芯片、如何设计更有性价比的推理产品?我们在此前已发表报告《“AI 的裂变时刻”系列报告 3:为什么 H20 的推理性价比高?》中基于理论推算框架分析发现,显存性能对于 GPU 推理性能影响较大。为了进一步研究高带宽、大容量 HBM 对于算力芯片推理性能的影响,我们在本报告假设了如下产品:L40S 算力参数不变,使用 HBM 替代 GDDR 作为显存方案;并基于理论推算框架推算假设产品的推理性能。结果显示使用HBM 后推理性能获得大幅提升。这对于国产推理算力芯片厂商产品定义与设计带来启示:使用更高带宽、更大容量的 HBM 对于提升产品推理性能起到事半功倍的效果。 ⚫ 若使用 HBM 显存方案,L40S 推理性能提升明显。根据英伟达官网,L40S 是英伟达 2023 年发布的一款推理GPU 产品,其显存方案为 48GB GDDR6,显存带宽为 864GB/s。我们基于理论推算框架,分析配有不同规格HBM 的 L40S 假设产品的推理性能;推算结果显示,使用 HBM 显存会显著提升 L40S 的推理性能;使用 192GB 容量、8TB/s 带宽 HBM 时,推理性能可达原 L40S 芯片的约 13 倍。 ⚫ Decode 阶段通常是显存带宽密集场景,显存带宽直接影响 Decode 速度。使用基于 Transformer 架构的大模型推理,Decode 阶段每个 Token 生成都伴随一次模型参数的读取,通常属于显存带宽密集场景,更高的显存带宽对于加速 Decode 环节至关重要。根据推算,特定推理场景下,相较于使用 864GB/s 带宽 GDDR,若使用8TB/s 带宽 HBM,每次模型读取所需时间从 39ms 减少至 4ms,Decode 过程 L40S 算力利用率从仅约 1%提高至约 14%;相同 Batch Size 情况下推理全程的芯片推理性能提高至约 9 倍。 ⚫ 增大 Batch Size 可提高推理效率,显存容量决定 Batch Size 上限。增大 Batch Size 可以有效提高 Decode 环节 GPU 的算力利用率、以及推理全流程平均每卡每秒 Throughput。但推理过程中 KV Cache 与模型参数两者之和需小于显存容量;且 KV Cache 与 Batch Size 成正比。因此显存容量在硬件层面决定了 Batch Size 的上限。根据推算,特定推理场景下,48GB 容量 GDDR6 支持的最大 Batch Size 为 16;若使用 192GB 容量 HBM配置,可支持的最大 Batch Size 提升至 64,从而有效提高了推理全流程平均每卡每秒 Throughput。 ⚫ 超长上下文进一步提高了对显存容量、显存带宽的需求。大模型支持上下文长度的持续、快速提升是行业发展的明显趋势之一;一方面,超长上下文会使得推理过程 KV Cache 增大,从而对显存容量提出了更高的要求;另一方面,为实现一定的每秒输出 Tokens 数量以保障用户体验,超长上下文场景会对显存带宽带来更高的要求。因此,超长上下文的发展趋势也会带动对高带宽、大容量 HBM 显存方案的需求。 ⚫ 风险提示。理论计算结果与实际测试存在误差,大语言模型技术变化,大模型开发或 AI 应用进展不及预期。 707672 识别风险,发现价值 请务必阅读末页的免责声明 2 / 18 [Table_PageText] 行业专题研究|电子 [Table_impcom] 重点公司估值和财务分析表 股票简称 股票代码 货币 最新 最近 评级 合理价值 EPS(元) PE(x) EV/EBITDA(x) ROE(%) 收盘价 报告日期 (元/股) 2024E 2025E 2024E 2025E 2024E 2025E 2024E 2025E 澜起科技 688008.SH CNY 46.73 2024/04/11 买入 81.10 1.35 2.23 34.61 20.96 33.23 20.32 13.50 18.20 聚辰股份 688123.SH CNY 48.72 2024/03/31 买入 84.03 2.80 4.22 17.40 11.55 14.84 10.16 18.30 21.70 胜宏科技 300476.SZ CNY 25.00 2024/04/19 买入 34.80 1.39 1.82 17.99 13.74 7.33 5.90 14.10 13.70 数据来源:Wind、广发证券发展研究中心 备注:表中估值指标按照最新收盘价计算 识别风险,发现价值 请务必阅读末页的免责声明 3 / 18 [Table_PageText] 行业专题研究|电子 目录索引 前言..................................................................................................................................... 5 一、若使用 HBM 显存方案,L40S 推理性能提升明显 ....................................................... 5 二、DECODE 阶段通常是显存带宽密集场景,显存带宽直接影响 DECODE 速度 ........... 7 三、增大 BATCH SIZE 可提高推理效率,显存容量决定 BATCH SIZE 上限 ..................... 9 四、超长上下文进一步提高了对显
[广发证券]:电子行业“AI的裂变时刻”系列报告9:对国产推理算力芯片厂商的启示,假如L40S使用HBM显存?,点击即可下载。报告格式为PDF,大小1.41M,页数18页,欢迎下载。
