计算机行业周观点第35期:DeepSeek公布成本利润率,利好AI云

1 | 请务必仔细阅读报告尾部的投资评级说明和声明 行业周报 | 计算机 DeepSeek 公布成本利润率,利好 AI 云 计算机行业周观点第 35 期  核心结论 分析师 郑宏达 S0800524020001 13918906471 zhenghongda@research.xbmail.com.cn 联系人 卢可欣 16621642550 lukexin@research.xbmail.com.cn 相关研究 计算机:AI 技术驱动的产业变革趋势依然明确—TMT 科技行业每周评议 2025-03-01 计算机:AI Infra 迎来新一轮景气周期—TMT科技行业每周评议 2025-02-22 计算机:港股科技股 Big7— 2025-02-21 DeepSeek 于 2025 年 2 月 24 日正式启动“开源周”,并于 3 月 1 日开源DeepSeek-V3/R1 推理系统。 理论成本利润率达 545%,DeepSeek 开启 AI 星辰大海。3 月 1 日,DeepSeek发布文章《DeepSeek-V3 / R1 推理系统概览》,并公布成本和理论收入。根据 DeepSeek 测算,如果所有 token 都按照 DeepSeek-R1 的定价计费,每日总收入将达到 56 万美元,成本利润率为 545%。但因为 V3 的定价更低,同时收费服务只占了一部分,另外夜间还会有折扣,所以实际收入低于理论值。 DeepSeek 开源周 Day1:FlashMLA。FlashMLA 是 DeepSeek 专为英伟达Hopper GPU 打造的高效 MLA 解码内核,特别针对变长序列进行了优化。亮点:加速推理,通过优化 MLA 解码和分页 KV 缓存,能够提高 LLM 推理效率,尤其是在 H100 / H800 这样的高端 GPU 上发挥出极致性能。 DeepSeek 开源周 Day2:DeepEP。DeepEP 是为混合专家(MoE)和专家并行(EP)量身定制的通信库,提供高吞吐量且低延迟的 all-to-all GPU 内核,这些内核也被称为 MoE 调度与合并。亮点:显著提升 MoE 模型的性能和效率,适用于大规模 AI 训练和推理。 DeepSeek 开源周 Day3:DeepGEMM。DeepGEMM 是专为 FP8 通用矩阵乘法(GEMM)优化的库,具备精细的缩放机制。亮点:加速矩阵运算,具有更高的效率和更灵活的部署。DeepGEMM 设计轻量,大约 300 行代码,却在大多数矩阵尺寸上超越了专家级别调优的内核。 DeepSeek 开源周 Day4:DualPipe & EPLB & profile-data。DualPipe 是一种创新的双向流水线并行算法,亮点:实现了前向和后向计算通信阶段的完全重叠,优化并行计算效率。EPLB 为负载均衡算法,亮点:解决 MoE 模型在分布式训练和推理中的负载不平衡问题。通过动态调整专家(MoE 模型中的子网络)的分配来平衡 GPU 之间的工作负载,同时减少跨节点通信开销,最大化硬件利用率以及提高训练效率。 DeepSeek 开源周 Day5:3FS & Smallpond。3FS(Fire-Flyer File System)是一种高性能分布式文件系统,旨在应对 AI 训练和推理工作负载的挑战。亮点:用于 AI 训练时计算节点中的模型批量读取样本数据场景,通过高速的计算存储交互加快模型训练,把固态硬盘的带宽性能利用到极致。 相关标的:1)国产 AI 芯片:寒武纪、海光信息;2)AI 服务器:浪潮信息、华勤技术;3)AIDC:云赛智联、金山云、并行科技、首都在线、青云科技、优刻得;4)AI 应用:虹软科技、博思软件、新致软件、赛意信息、深桑达、云赛智联、金山办公、金蝶国际、用友网络、迈富时。 风险提示:产业政策转变、技术进展不及预期、应用落地不及预期、行业竞争加剧、国际环境发生变化。 证券研究报告 2025 年 03 月 01 日 行业周报 | 计算机 西部证券 2025 年 03 月 01 日 2 | 请务必仔细阅读报告尾部的投资评级说明和声明 DeepSeek全面开源V3/R1推理系统,并公布理论成本利润率为545% DeepSeek-V3/R1 推理系统概述:为了达到推理更高的吞吐量和更低的延迟,DeepSeek采用了大规模跨节点专家并行(Expert Parallelism / EP)。而多机多卡的专家并行会引入比较大的通信开销,所以 DeepSeek 使用了双 batch 重叠来掩盖通信开销,提高整体吞吐。同时 DeepSeek 还使用多种均衡算法为每个 GPU 分配均衡的计算负载、通信负载以加速计算。 根据 DeepSeek 测算,如果所有 token 都按照 DeepSeek-R1 的定价计费,每日总收入将达到 56 万美元,成本利润率为 545%。根据 DeepSeek 官方知乎,DeepSeek V3 和 R1 的所有服务均使用 H800 GPU,使用和训练一致的精度,即矩阵计算和 dispatch 传输采用和训练一致的 FP8 格式,core-attention 计算和 combine 传输采用和训练一致的 BF16,最大程度保证了服务效果。而由于白天的服务负荷高,晚上的服务负荷低,因此DeepSeek 实现了一套机制,在白天负荷高的时候,用所有节点部署推理服务。晚上负荷低的时候,减少推理节点,以用来做研究和训练。  在北京时间 2025/02/27 12:00 至 2025/02/28 12:00,DeepSeek V3 和 R1 推理服务占用节点总和,峰值占用为 278 个节点,平均占用 226.75 个节点(每个节点为 8 个 H800 GPU)。  假定 GPU 租赁成本为 $2 /小时,总成本为 $87,072/天。  在 24 小时统计时段内,DeepSeek V3 和 R1 输入 token 总数为 608B,其中 342B tokens(56.3%)命中 KVCache 硬盘缓存。输出 token 总数为 168B。平均输出速率为 20~22 tps,平均每输出一个 token 的 KVCache 长度是 4989。  平均每台 H800 的吞吐量为:对于 prefill 任务,输入吞吐约 73.7k tokens/s(含缓存命中);对于 decode 任务,输出吞吐约 14.8k tokens/s。 以上统计包括了网页、APP 和 API 的所有负载。如果所有 tokens 全部按照 DeepSeek R1 的定价计算,即输入 token(缓存命中)每百万 0.14 美元,输入 token(缓存未命中)每百万 0.55 美元,输出 token 每百万 2.19 美元,则理论上一天的总收入为 $562,027,成本利润率 545%。但因为 V3 的定价更低,同时收费服务只占了一部分,另外夜间还会有折扣,所以实际收入低于理论值。 图 1:DeepSeek 用于推理服务的 H800 节点数量 资料来源:DeepSeek 知乎、西

立即下载
电子设备
2025-03-02
西部证券
8页
1.03M
收藏
分享

[西部证券]:计算机行业周观点第35期:DeepSeek公布成本利润率,利好AI云,点击即可下载。报告格式为PDF,大小1.03M,页数8页,欢迎下载。

本报告共8页,只提供前10页预览,清晰完整版报告请下载后查看,喜欢就下载吧!
立即下载
本报告共8页,只提供前10页预览,清晰完整版报告请下载后查看,喜欢就下载吧!
立即下载
水滴研报所有报告均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。
相关图表
半导体设备与半导体指数走势对比
电子设备
2025-03-02
来源:半导体行业基石系列之二:制造封装高景气,看好设备材料估值业绩双提升
查看原文
全球封装材料市场规模(单位:十亿美元)
电子设备
2025-03-02
来源:半导体行业基石系列之二:制造封装高景气,看好设备材料估值业绩双提升
查看原文
全球半导体材料市场预测
电子设备
2025-03-02
来源:半导体行业基石系列之二:制造封装高景气,看好设备材料估值业绩双提升
查看原文
全球半导体材料市场规模(单位:十亿美元) 图 49:全球分区域半导体材料销售额(单位:百万美元)
电子设备
2025-03-02
来源:半导体行业基石系列之二:制造封装高景气,看好设备材料估值业绩双提升
查看原文
先进封装设备市场规模变化 图 47:2024 年海外半导体设备头部公司先进封装业务预期收入
电子设备
2025-03-02
来源:半导体行业基石系列之二:制造封装高景气,看好设备材料估值业绩双提升
查看原文
全球封装设备市场规模从 2024 年开始回暖 图 45:2023 年封装设备产品市场规模占比
电子设备
2025-03-02
来源:半导体行业基石系列之二:制造封装高景气,看好设备材料估值业绩双提升
查看原文
回顶部
报告群
公众号
小程序
在线客服
收起