电子行业“AI的裂变时刻”系列报告3:为什么H20的推理性价比高?
识别风险,发现价值 请务必阅读末页的免责声明 1 / 14 [Table_Page] 行业专题研究|电子 2024 年 3 月 17 日 证券研究报告 [Table_C ontacter] 本报告联系人: [Table_Title] “AI 的裂变时刻”系列报告 3 为什么 H20 的推理性价比高? [Table_Author] 分析师: 王亮 分析师: 耿正 分析师: 任思儒 SAC 执证号:S0260519060001 SFC CE.no: BFS478 SAC 执证号:S0260520090002 SAC 执证号:S0260524030001 021-38003658 021-38003660 021-38003660 gfwangliang@gf.com.cn gengzheng@gf.com.cn rensiru@gf.com.cn 请注意,耿正,任思儒并非香港证券及期货事务监察委员会的注册持牌人,不可在香港从事受监管活动。 [Table_Summary] 核心观点: ⚫ 根据推算,H20 推理性能超过 H100,L20 推理性能比肩 L40S。NVIDIA H20 和 L20 是 NVIDIA 为中国市场定制的算力芯片产品,为满足美国出口管制条例要求,两款产品的核心算力参数均大幅阉割;如 H20 的 FP16、INT8 等主要算力参数仅为 A100 的不足 1/2,更是仅为 H100 的约 1/7;L20 的主要算力参数相较于 L40、L40S分别下降约 1/3、2/3。较低的算力参数使得市场对两款产品的性能表现、性价比持悲观或怀疑态度。但是我们根据理论推算,在多数推理场景下,H20 的推理速度明显优于 A100、甚至优于 H100;取三组测试场景(单GPU, Llama2-13B,BS=16,FP16,ISL/OSL 分别为 128/3968、512/3584、2048/2048)平均值,H20 推理性能是 A100 的 1.8 倍、是 H100 的 1.1 倍。而 L20 在三组测试场景(单 GPU, Llama2-7B,BS=16,FP16,ISL/OSL 分别为 128/3968、512/3584、2048/2048)中,推理性能也基本与 L40S 和 L40 持平。 ⚫ Prefill 是算力密集场景,H20 受算力制约性能表现较弱。Prefill 阶段算力负载体现在对用户所有输入 Tokens 进行一次并行计算;显存带宽负载主要体现在参数量从 HBM 向算力芯片的传输。在大多数推理场景下(如输入Tokens 较长、或 Batch Size 较大),Prefill 阶段计算耗时高于显存传输的耗时,因此该环节的耗时(也被称为First token latency)通常是由算力芯片的算力能力决定,属于算力密集场景。由于 H20 的算力较弱,Prefill 环节耗时明显高于其他三款芯片。 ⚫ Decode 是显存带宽密集场景,H20 性能表现优异。在 Decode 过程中回答 Tokens 逐个生成,且每个 Token生成过程中,都需要重复一次参数、KV Cache 从 HBM 向算力芯片的传输,使得 Decode 阶段通常显存传输耗时明显高于计算耗时,属于显存带宽密集场景;更高速显存带宽对加速 Decode 至关重要。H20 凭借较高的显存带宽,在 Decode 阶段 Tokens 生成速率高于 A100 和 H100,这也使得 H20 在整个推理过程具有较高的推理速度。 ⚫ H20 在多数推理场景中性能优异、性价比高,但也存在特殊情况。多数推理场景下,站在 H20 用户角度,从输入问题到等待第一个回答文字所需时间会较长(相较于使用 A100/H100/200),但负面影响相对有限;在回答过程中,H20 用户会体验到更快的回答速度(相较于使用 A100/H100);综合来看 H20 用户体验较优。站在 H20持有人角度,由于 H20 在推理全程平均 Throughput(Tokens/s)高,使得每 Token 平摊的系统硬件成本下降;H20 是持有人的高性价比选择。但是在提问问题较长/回答文字较短的特殊场景下,H20 的低算力劣势会放大,无论是 H20 的用户体验、还是持有性价比,都会出现明显下降。 ⚫ 风险提示。理论计算结果与实际测试存在误差,大语言模型技术变化,大模型开发或 AI 应用进展不及预期。 识别风险,发现价值 请务必阅读末页的免责声明 2 / 14 [Table_PageText] 行业专题研究|电子 [Table_impcom] 重点公司估值和财务分析表 股票简称 股票代码 货币 最新 最近 评级 合理价值 EPS(元) PE(x) EV/EBITDA(x) ROE(%) 收盘价 报告日期 (元/股) 2023E 2024E 2023E 2024E 2023E 2024E 2023E 2024E 澜起科技 688008.SH CNY 52.40 2024/01/28 买入 88.96 0.41 1.48 127.80 35.41 99.69 30.04 4.50 14.20 聚辰股份 688123.SH CNY 56.33 2023/10/31 买入 72.28 1.09 2.41 51.68 23.37 46.17 20.72 8.10 15.20 源杰科技 688498.SH CNY 162.00 2023/04/27 买入 303.93 2.53 3.54 64.03 45.76 58.42 38.56 6.80 8.70 数据来源:Wind、广发证券发展研究中心 备注:表中估值指标按照最新收盘价计算 识别风险,发现价值 请务必阅读末页的免责声明 3 / 14 [Table_PageText] 行业专题研究|电子 目录索引 一、H20 推理性能超过 H100,L20 推理性能比肩 L40S ................................................... 5 二、PREFILL 是算力密集场景,H20 受算力制约性能表现较弱 ........................................ 7 三、DECODE 是显存带宽密集场景,H20 性能表现优异 .................................................. 7 四、H20 在多数推理场景中性能优异、性价比高,但也存在特殊情况 .............................. 8 五、备注及附录 .....................................................................................................
[广发证券]:电子行业“AI的裂变时刻”系列报告3:为什么H20的推理性价比高?,点击即可下载。报告格式为PDF,大小1.37M,页数14页,欢迎下载。
