AI事件点评:DeepSeek发布高性价比开源模型,有望拉平模型差距、加速AI云与应用发展

请务必阅读正文之后的免责声明及其项下所有内容证券研究报告 | 2025年02月04日优于大市1AI 事件点评DeepSeek 发布高性价比开源模型,有望拉平模型差距、加速 AI 云与应用发展 行业研究·行业快评 互联网·互联网Ⅱ 投资评级:优于大市(维持)证券分析师:张伦可0755-81982651zhanglunke@guosen.com.cn执证编码:S0980521120004联系人:刘子谭liuzitan@guosen.com.cn事项:2024 年 12 月 26 日,DeepSeek 发布开源模型 V3,训练成本仅 557.6 万美元,性能却能对标 GPT-4o。2025年 1 月 20 日,DeepSeek 继续发布开源模型 R1,训练周期仅两个月,在数学、代码、自然语言推理等任务上性能比肩 OpenAI o1 正式版。对比 OpenAI 与谷歌每年数十亿美元 AI 预算,以及 25 年 1 月 22 日发布的计划投资高达 5000 亿建设 AI 相关基础设施的“星际之门”项目,低成本的 Deepseek 引起海内外强烈关注与反思。2025 年 1 月 27 日,DeepSeek 事件继续发酵,并在资本市场引发强烈反应,美国主要 AI 相关科技股均遭遇股市地震,其中英伟达跌近 17%,单日市值蒸发约 6000 亿美元。伴随热度,DeepSeek 应用迅速登顶 15 个国家和地区的苹果应用商店免费 APP 下载排行榜,火爆出圈,截止目前 20 天已经实现 2000万下载量。国信互联网观点:1)对 AI 模型层,Deepseek 的开源与高性价比将显著加剧大模型层竞争,降低大模型门槛、利好追赶者。Deepseek 打破已有过度依赖算力与标注数据的训练模式,架构上的“捷径”对于利用大算力与标注数据作为护城河的领先模型是巨大的挑战,为其他模型研发者提供了新的技术思路和追赶方式。DeepSeek 不仅主打高性价比还将模型全部开源,这将极大推动开源生态的繁荣,也意味着模型层竞争更加激烈,促使模型开发者不断提升模型性能、降低成本。2)对 AI 芯片算力层:短期降低先进算力需求预期,ASIC 和国产芯片厂商拥有了更长的时间窗口。DeepSeek 通过创新的训练方法,如在预训练阶段加入强化学习,证实了在有限算力下实现前沿 AI 能力的可能性,部分企业预计会减少对大规模算力基础设施的激进投入,短期降低对英伟达的先进算力需求预期,也使得 ASIC 和国产芯片厂商拥有了更长的时间窗口,算力市场预计走向多元化发展。3)对云厂商:利好云厂商下游需求增长,显著缩小了云厂 AI 前期投入与应用兑现之间的时间与资源成本,有望进一步提升国产云厂商盈利能力。云厂商集算力供给、大模型研发与 AI 应用为一体,DeepSeek 高性价比、开源模型虽然削弱模型层竞争壁垒,但为云厂商提供了更具性价比的 API,如 R1 上线短短两周,腾讯云、华为云、微软 Azure 和亚马逊 AWS 均已上线相关服务。目前云厂商需要承受巨大 AI 前期投入与应用业绩兑现的时间差,如近期星门计划微软未参与,表明 AI 投入已经达到短期经济体投入能力的上限(今年微软 Capex 800-900 亿 vs1000 亿盈利,Meta Capex 600-650 亿 vs660 亿盈利),而 Deepseek 的技术路线使得云厂可以更加平衡 AI 的 ROI、模型的成本效益和实用性。Deepseek 拓展 AI 应用场景,激发新的算力需求,有望显著带动 AI 云增长。对国内云厂商,Deepseek 将加速企业数字化转型上云,规模效应下进一步提升云业务利润率。4)对 AI 应用层:降低 AI 应用研发与落地的成本,加速 AI 应用发展,Agent 与端侧 AI 预期增强。DeepSeek 模型使得开发利用大模型训练、调优的门槛降低,高性价比的模型使得 AI 应用研发和使用成本显著降低,加速垂类模型发展、利好 AI 在各行业的渗透。DeepSeek-R1 具备深度思考能力,有望成为互动场景或工作任务的“Agent 智能体”大脑。同时,Deepseek 将同等模型能力所需的算力大幅压缩,有望部署到端侧,加速端侧 AI 的落地。投资建议:Deepseek 有望加速国内云厂商大模型追赶速度、拉平模型层差距。同时加速国内企业上云、利好云厂商下游需求增长。显著缩小云厂 AI 前期投入与应用兑现之间的时间与资源成本,规模效应下有望进一步提升国产云厂商利润率。因此,我们推荐国内云厂商龙头阿里巴巴,具备云业务与优质社交场景生态的腾讯控股,以及海外云厂商龙头亚马逊。请务必阅读正文之后的免责声明及其项下所有内容证券研究报告2评论: Deepseek 模型介绍1)DeepSeek-V3:2024 年 12 月 26 日发布,在多项测试中达到了与 GPT-4 和 Claude 3.5 等顶级模型相当的性能水平。其采用多头潜在注意力(MLA)机制,通过压缩注意力机制中的键和值,有效减少推理阶段的计算量,提高模型运行效率。根据官网介绍训练成本仅 557.6 万美元,性能却与 GPT - 4o 媲美,对比OpenAI 训练 GPT-4 花费约 1 亿美元性价比显著。DeepSeek V3 使用的 token 数量约为 14.8 万亿(1480B),对比 GPT-4 MoE 使用了 13 万亿(1300B)token,数量相当。图1:DeepSeek-V3 训练成本资料来源:Deepseek 官网、国信证券经济研究所整理2)DeepSeek-R1:训练基于 DeepSeek-V3 的基座模型,通过强化学习从 V3 进化而来,推理过程包含大量反思和验证,思维链长度可达数万字。DeepSeek-R1 在后训练阶段大规模使用了强化学习技术,在仅有极少标注数据的情况下,极大提升了模型推理能力。遵循 MITLicense,即允许用户通过蒸馏技术借助 R1训练其他模型。在基准测试中表现与 OpenAI 的 o1 模型相当,但价格却显著低于 o1,性价比更具优势。表1:DeepSeek 模型情况介绍模型名称DeepSeek-V2DeepSeek-V3DeepSeek-R1发布时间2024 年 5 月2024 年 12 月 26 日2025 年 1 月 20 日参数量总参数 2360 亿,激活参数 210 亿拥有 6710 亿参数(约为 GPT-4 MoE 的 1/3),激活参数为 370 亿(约为 GPT-4 MoE 的 1/7)DeepSeek-R1-Zero 和 DeepSeek-R1 均为 6710 亿参数(MoE 架构,每个 token激活 370 亿参数)。同时还蒸馏了 6 个小模型,参数范围从 15 亿到 700 亿不等。性能综合性能达 GPT-4 级别。1中文综合能力在众多开源模型中最强,超过 GPT-4,与GPT-4-Turbo、文心 4.0 等闭源模型在评测中处于同一梯队;2英文综合能力与最强的开源模型 LLaMA3-70B 处于同一梯队,超过最强 MoE 开源模型Mixtral8x22B。3在 8 卡 H800 机器上,输入吞吐量超过每秒 10 万 tokens,输

立即下载
电子设备
2025-02-04
国信证券
张伦可
8页
1.22M
收藏
分享

[国信证券]:AI事件点评:DeepSeek发布高性价比开源模型,有望拉平模型差距、加速AI云与应用发展,点击即可下载。报告格式为PDF,大小1.22M,页数8页,欢迎下载。

本报告共8页,只提供前10页预览,清晰完整版报告请下载后查看,喜欢就下载吧!
立即下载
本报告共8页,只提供前10页预览,清晰完整版报告请下载后查看,喜欢就下载吧!
立即下载
回顶部
报告群
公众号
小程序
在线客服
收起