计算机行业点评:从长文本到低成本,重申全面看多AI应用
行业报告 | 行业点评 请务必阅读正文之后的信息披露和免责申明 1 计算机 证券研究报告 2024 年 05 月 12 日 投资评级 行业评级 强于大市(维持评级) 上次评级 强于大市 作者 缪欣君 分析师 SAC 执业证书编号:S1110517080003 miaoxinjun@tfzq.com 刘鉴 联系人 liujianb@tfzq.com 资料来源:聚源数据 相关报告 1 《计算机- 行业点评:计算机板块2024Q1 业绩分析:出海/SaaS/AI 硬件表现优异》 2024-05-10 2 《计算机-行业点评:国产算力板块景气度有望再上一个台阶》 2024-04-30 3 《计算机-行业深度研究:量子加密, 一片新蓝海》 2024-04-29 行业走势图 从长文本到低成本,重申全面看多 AI 应用 幻方 AI 发布了 Deepseek V2 模型,在模型性能一流的同时达到极低的价格,性价比凸显 5 月 6 日幻方发布了第二代 MOE 模型 DeepSeek-V2。目前在大模型主流榜单中,DeepSeek-V2 均表现出色,中文综合能力(AlignBench)开源模型中最强,与 GPT-4-Turbo,文心 4.0 等闭源模型在评测中处于同一梯队,英文综合能力(MT-Bench)与最强的开源模型 LLaMA3-70B 同处第一梯队,超过最强 MoE 开源模型 Mixtral 8x22B,知识、数学、推理、编程等榜单结果也位居前列。同时,DeepSeek-V2 API 的定价处于极低的价格:32K 上下文每百万 tokens 输入 1 元、输出 2 元,价格仅为 GPT-4-Turbo 的近百分之一,仅为同属于 MoE 架构的 abab-6.5s 模型的 1/5,就中文能力来看,DeepSeek-V2 在全球模型中处于第一档的位置,但其成本却是最低。 双重架构创新驱动极低训练与推理成本大幅降低 Deepseek-V2 模 型 在 模 型 架 构 上 进 行 了 全 方 位 的 创 新 , 使 用 MLA(Multi-head Latent Attention)和 DeepSeekMoE 优化了 Transformer 架构中的 Attention 与 FFN。为缓解键值缓存带来的推理效率下降问题,公司提出了 MLA 使用低秩键值联合压缩的方式,显著降低 KV 缓存;在 FFN 上,公司使用了 DeepSeekMoE,采用了细颗粒度的专家分割与共享专家隔离,提高了专家的潜力,相较于 Gshard 等传统 MoE 架构,新提出的架构优势较大。在训练过程中,公司使用了约 8.1T tokens 的训练语料库,随后使用收集的 150 万对话对大模型进行监督微调,同时采用 GRPO,使模型进一步与人类偏好保持对齐。最终,模型在取得了良好效果的同时,训练成本与推理成本大幅降低,相较于 DeepSeek 67B 模型,V2 模型节省了 42.5%的训练成本与 93.3%的 KV 缓存,最大生成吞吐量提升至 5.76 倍。 大模型低成本进程加快,应用有望达到更好盈利水平,全面看多 AI 应用 降本是实现大模型规模化商业应用的关键,DeepSeek-V2 模型通过架构创新,实现了大模型成本尤其是推理成本的显著下降。A16Z 的合伙人 Martin Casado 在演讲中指出,历史上芯片和互联网都曾发生两次边际成本大幅下降,而发生的平台转移和行业革命的案例,随着大模型的成本下降甚至边际成本降到了零后,AI 革命即将开始,而每一轮科技革命,从 PC 互联网到移动互联网都是应用赚最多的钱,因此我们认为以 DeepSeek-V2 为代表的大模型成本迅速下降,有望全面带动 AI 应用的发展。 建议关注: (1)办公软件:金山办公、福昕软件;(2)多模态:万兴科技、美图公司(与海外团队联合覆盖)、虹软科技、光云科技;(3)金融、法律:同花顺、恒生电子、通达海、新致软件;(4)B 端应用:金蝶国际、泛微网络、用友网络、致远互联、鼎捷软件、汉得信息;(5)算力:华为链+国产 AI 芯片四小龙 风险提示:应用推广节奏不及预期、国产算力进展不及预期、大模型发展历程不及预期 -40%-32%-24%-16%-8%0%8%2023-052023-092024-01计算机沪深300 行业报告 | 行业点评 请务必阅读正文之后的信息披露和免责申明 2 图 1:各大模型 API 性能对比 资料来源:幻方 AI 公众号,天风证券研究所 图 2:经过强化学习后的 Deepseek-V2 模型在 MMLU 测试集得分接近 LLAMA3 70B Inst. 资料来源:《DeepSeek-V2: A Strong, Economical, and Efficient Mixture-of-Experts Language Model》(作者为 DeepSeek-AI),天风证券研究所 行业报告 | 行业点评 请务必阅读正文之后的信息披露和免责申明 3 图 3:DeepSeek-V2 模型在中文能力达到第一梯队的同时成本最低 资料来源:Deepseek Chat 官网,天风证券研究所 图 4:DeepSeek-v2 模型在 Attention 和 FFN 上进行了结构创新 资料来源:《DeepSeek-V2: A Strong, Economical, and Efficient Mixture-of-Experts Language Model》(作者为 DeepSeek-AI),天风证券研究所 行业报告 | 行业点评 请务必阅读正文之后的信息披露和免责申明 4 图 5:MLA 在推理过程中显著降低了 KV cashe 资料来源:《DeepSeek-V2: A Strong, Economical, and Efficient Mixture-of-Experts Language Model》(作者为 DeepSeek-AI),天风证券研究所 图 6:MLA 在降低 KV Cache 的时候维持了模型的高性能 资料来源:《DeepSeek-V2: A Strong, Economical, and Efficient Mixture-of-Experts Language Model》(作者为 DeepSeek-AI),天风证券研究所 行业报告 | 行业点评 请务必阅读正文之后的信息披露和免责申明 5 分析师声明 本报告署名分析师在此声明:我们具有中国证券业协会授予的证券投资咨询执业资格或相当的专业胜任能力,本报告所表述的所有观点均准确地反映了我们对标的证券和发行人的个人看法。我们所得报酬的任何部分不曾与,不与,也将不会与本报告中的具体投资建议或观点有直接或间接联系。 一般声明 除非另有规定,本报告中的所有材料版权均属天风证券股份有限公司(已获中国证监会许可的证券投资咨询业务资格)及其附属机构(以下统称“天风证券”)。未经天风证券事先书面授权,不得以任何方式修改、发送
[天风证券]:计算机行业点评:从长文本到低成本,重申全面看多AI应用,点击即可下载。报告格式为PDF,大小1.24M,页数5页,欢迎下载。
