计算机行业专题报告:大模型推理算力知多少?

计算机 / 行业专题报告 / 2023.08.23 请阅读最后一页的重要声明! 大模型推理算力知多少? 证券研究报告 投资评级:看好(维持) 最近 12 月市场表现 分析师 杨烨 SAC 证书编号:S0160522050001 yangye01@ctsec.com 分析师 罗云扬 SAC 证书编号:S0160522050002 luoyy@ctsec.com 相关报告 1. 《“活跃资本市场”政策频出,证券 IT迎板块性机遇》 2023-08-17 2. 《智能驾驶研究框架:(一)总章》 2023-08-12 3. 《券商信创已至深水区,AI 赋能提质增效》 2023-08-07 核心观点 ❖ Transformer 生成为访存密集型任务,显存及其带宽限制算力利用。Transformer 作为自回归模型,生成每一个新的 token,都需要将所有输入过的token 反复计算,实际产业中,会将已经计算过的量(K、V 值)预存下来,避免重复计算,导致每生成一个 token,都需要与显存进行数据交互(访存),导致相比计算,Transformer 模型在生成过程中对访存的需求更高。目前全球最先进 AI 芯片的计算速度“远快于”显存带宽。我们认为,针对大模型推理这类访存密集型任务,对其算力需求的估计,不能单单考虑其 FLOPs 的需求,更重要的瓶颈在于访存。 ❖ 目前的优化手段主要是在算力成本与用户体验之间做平衡。实践中有大量优化技术以克服 GPU 利用率低的问题,但存在一定取舍,总结而言,在不做模型精简的情况下,GPU 利用率与时延难以同时兼顾。而做参数量化、模型蒸馏等模型精简看似可以做到“兼顾”,但却舍弃了模型本身的效果。我们认为,高昂的推理算力成本是阻碍以 GPT 为代表的 LLM 模型应用大规模落地的重要原因之一,后续随着算力性价比不断提升,大模型应用发展前景广阔。 ❖ 支撑 GPT-3.5 推理任务的 A100 数量或至少在 5 万张左右。根据我们测算,若以 GPT-3.5 当前的流量情况以及 token 生成速度,大约需要 5 万张左右的 A100 才能承载推理。而如果再考虑到:1.当前全球流量最高的网站月活水平;2.更高的精度以发挥更好的模型效果;3.GPT-4 若想要解开限制等因素,推理算力的需求或为长期高景气,同时当前高昂的成本是阻碍应用大规模落地的主要因素之一。 ❖ 英伟达 L40s 开启降本第一步,应用有望加速落地。L40s 在特定场景下性价比超越 A100,供货周期较短。我们认为,L40s 的发布首先将为英伟达及其算力产业链相关企业带来更快的实际业绩受益,而非难以交付的“高增长订单”。同时,非超大型模型端的降本有望加速应用(或尤其图像领域)大规模落地。在千亿级甚至以上参数的超大模型训练与推理方面,A/H 系列仍具有不可代替的能力,L40s 的发布既填补了一部分腰部客户需求,但以科技巨头需求为主的 A/H 系列芯片又仍将需求旺盛。 ❖ 投资建议:见正文 ❖ 风险提示:AI 技术迭代不及预期的风险,商业化落地不及预期的风险,政策支持不及预期风险,全球宏观经济风险。 -16%-4%8%19%31%43%计算机沪深300 谨请参阅尾页重要声明及财通证券股票和行业评级标准 2 行业专题报告/证券研究报告 1 推理算力成本高企,大模型应用落地受钳制 ....................................................................................... 3 1.1 Transformer 生成为访存密集型任务,显存带宽是产业发展瓶颈 ................................................ 3 1.2 平衡的两端:算力成本 vs 用户体验 ................................................................................................. 5 2 英伟达 L40s 开启算力降本第一步,静待花开..................................................................................... 7 2.1 FLOPS 视角下,或大幅低估算力需求 ............................................................................................. 7 2.2 英伟达 L40s 开启降本第一步,应用有望加速落地 ......................................................................... 9 3 投资建议 ................................................................................................................................................. 10 4 风险提示 ................................................................................................................................................. 11 图 1. 大模型针对每一个 token 进行一次前向计算所需算力公式 ............................................................. 3 图 2. 自回归生成过程 ..................................................................................................................................... 4 图 3. 以 GPT-3 为例生成阶段计算量与访存量需求 .................................................................................... 4 图 4. 英伟达各类芯片“计算访存比” ............................................................................................................. 5 图 5. AI 推理常用加速手段 ................................................................................................

立即下载
电子设备
2023-08-24
财通证券
杨烨,罗云扬
12页
1.28M
收藏
分享

[财通证券]:计算机行业专题报告:大模型推理算力知多少?,点击即可下载。报告格式为PDF,大小1.28M,页数12页,欢迎下载。

本报告共12页,只提供前10页预览,清晰完整版报告请下载后查看,喜欢就下载吧!
立即下载
本报告共12页,只提供前10页预览,清晰完整版报告请下载后查看,喜欢就下载吧!
立即下载
水滴研报所有报告均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。
相关图表
图 3 神州数码 2018-2023Q1 扣非净利润(亿元)及增速(右轴) 图 4 神州数码 2018-2023Q1 毛利率、净利率
电子设备
2023-08-24
来源:公司简评报告:云+信创持续高增,鲲鹏核心标的受益信创加速
查看原文
图 1 神州数码 2018-2023Q1 营业收入(亿元)及增速(右轴) 图 2 神州数码 2018-2023Q1 归母净利润(亿元)及增速(右轴)
电子设备
2023-08-24
来源:公司简评报告:云+信创持续高增,鲲鹏核心标的受益信创加速
查看原文
图表 5. 公司盈利能力(2020Q1-2023Q2) 图表 6. 公司期间费用率(2020Q1-2023Q2)
电子设备
2023-08-24
来源:加大研发深耕存储,“存储+”开辟新空间
查看原文
图表 3. 公司年度归母净利润(2018-2022) 图表 4. 公司分季度归母净利润(2020Q1-2023Q2)
电子设备
2023-08-24
来源:加大研发深耕存储,“存储+”开辟新空间
查看原文
图表 1. 公司年度营业收入(2018-2022) 图表 2. 公司分季度营业收入(2020Q1-2023Q2)
电子设备
2023-08-24
来源:加大研发深耕存储,“存储+”开辟新空间
查看原文
新思科技业绩报告数据
电子设备
2023-08-23
来源:海外科技追踪周报:VIFA推出双AI驱动智能音箱,生成式AI应用前景广阔
查看原文
回顶部
报告群
公众号
小程序
在线客服
收起