计算机行业专题报告:DeepSeek开源六连击,尽显极客风采

请阅读最后一页的重要声明! DeepSeek 开源六连击,尽显极客风采 证券研究报告 投资评级:看好(维持) 最近 12 月市场表现 分析师 杨烨 SAC 证书编号:S0160522050001 yangye01@ctsec.com 相关报告 1. 《再提加强平安中国建设,重视“AI+公共安全”》 2025-03-02 2. 《 英 伟 达 业 绩 指 引 均 超 预 期 ,Blackwell 增长强劲》 2025-02-27 3. 《一文解读智能驾驶“端到端 2.0”-VLA 模型》 2025-02-27 核心观点 ❖ DeepSeek 开源周:更大的吞吐,更低的延迟,更极致的性价比。DeepSeek在 2 月 24 日至 28 日进行了为期 5 天的开源周“技术轰炸”,开源了 5 大代码库,覆盖训练、推理、通信、负载均衡以及数据加速的全链路,惊喜连连。开源周第 1 天发布 FlashMLA,一款专为 Hopper 架构打造的高效 MLA 解码器,可高效处理变长序列,优化内存管理,榨取 GPU 极致性能。开源周第 2 天发布 DeepEP,聚焦通信资源利用,提升数据高效传输,是首个为 MoE 量身定制的灵活 GPU 资源控制通信库。开源周的第三天,DeepSeek 推出了支持稠密和 MoE 模型的 FP8 计算库——DeepGEMM,核心逻辑仅约 300 行代码直面AI 计算中最频繁的矩阵乘法,可为 V3/R1 的训练和推理提供强大支持。开源周第 4 天,DeepSeek 推出了一系列优化并行策略,包括 DualPipe——一种用于 V3/R1 模型训练中实现计算与通信重叠的双向流水线并行算法;以及EPLB——一个针对 V3/R1 模型的专家并行负载均衡工具,并深入分析了V3/R1 模型中的计算与通信重叠机制。开源周的最后一天,DeepSeek 发布了3FS 并行文件系统,旨在应对人工智能训练和推理工作负载带来的挑战。该系统利用现代固态硬盘(SSDs)和 RDMA 网络,提供一个共享存储层,从而简化分布式应用程序的开发,并加速 DeepSeek 平台上所有数据访问操作。 ❖ One More Thing:DeepSeek-V3/R1 推理系统实现大模型推理 545%理论成本利润率。在开源周结束 5 天“技术轰炸”后,DeepSeek 于第 6 天惊喜发布关于 DeepSeek-V3/R1 推理系统概述的文档,展示了如何通过跨节点并行、负载均衡和动态资源管理实现高吞吐量、低延迟和高性价比的推理服务,以实现 545%理论成本利润率。DeepSeek 提出了三种负载均衡器:Prefill Load Balancer、Decode Load Balancer 和 Expert-Parallel Load Balancer。它们分别针对不同的核心问题进行优化,目标是为每个 GPU 分配均衡的计算和通信负载,从而提高整体系统效率。 ❖ DeepSeek 开源六连击,尽显极客风采:DeepSeek 开源周上接连不断的技术发布,彰显了团队的极客精神和开源理念。正如其官方所言:“这里没有象牙塔,只有秉持纯粹的车库创业精神和社区驱动的创新理念。”此次 FlashMLA项目中同样包含了一行内联代码,这表明 DeepSeek 团队深入至高级编程语言CUDA 和 GPU 的底层机器代码之间,对 GPU 的并行计算、内存访问等进行更加细致的控制,进一步提升程序的性能。这不仅体现了团队对算法的深耕,也展现了他们对效率的极致工程化追求。 ❖ 投资建议:我们对计算机行业维持看好评级。见正文。 ❖ 风险提示:技术迭代不及预期的风险;商业化落地不及预期的风险;政策支 持不及预期风险;全球宏观经济风险。 -29%-16%-2%11%24%38%计算机沪深300上证指数 谨请参阅尾页重要声明及财通证券股票和行业评级标准 2 行业专题报告/证券研究报告 1 DeepSeek 开源周:更大的吞吐,更低的延迟,更极致的性价比 ..................................................... 3 1.1 开源周第 1 天:FlashMLA,专为 Hopper 打造的高效 MLA 解码器 ......................................... 3 1.2 开源周第 2 天:DeepEP,首个为 MoE 量身定制的灵活 GPU 资源控制通信库 ........................ 5 1.3 开源周第 3 天:DeepGEMM,直面 AI 计算中最频繁的矩阵乘法 .............................................. 7 1.4 开源周第 4 天:优化并行策略,提升训练速度与资源利用率 ...................................................... 8 1.4.1 DualPipe:创新双向流水线并行算法 .............................................................................................. 8 1.4.2 EPLB:优化专家并行架构训练效率 ................................................................................................ 9 1.4.3 深入分析 V3/R1 模型中的计算与通信重叠机制,便于开发者理解和优化 ........................... 10 1.5 开源周第 5 天:3FS,DeepSeek 数据访问推进器 ........................................................................ 11 2 One More Thing:DeepSeek-V3/R1 推理系统实现大模型推理 545%理论成本利润率 ................ 13 3 DeepSeek 开源六连击,尽显极客风采 ............................................................................................... 16 4 投资建议 ................................................................................................................................................. 17 5 风险提示 ......................................................................................................

立即下载
电子设备
2025-03-10
财通证券
18页
1.76M
收藏
分享

[财通证券]:计算机行业专题报告:DeepSeek开源六连击,尽显极客风采,点击即可下载。报告格式为PDF,大小1.76M,页数18页,欢迎下载。

本报告共18页,只提供前10页预览,清晰完整版报告请下载后查看,喜欢就下载吧!
立即下载
本报告共18页,只提供前10页预览,清晰完整版报告请下载后查看,喜欢就下载吧!
立即下载
水滴研报所有报告均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。
相关图表
存储重点公司盈利预测及 PE 估值
电子设备
2025-03-10
来源:半导体行业跟踪报告之二十八:存储跌价即将结束,25Q2价格有望逐步回升
查看原文
长江存储 YMTC Xtacking 架构
电子设备
2025-03-10
来源:半导体行业跟踪报告之二十八:存储跌价即将结束,25Q2价格有望逐步回升
查看原文
美光 1γ DRAM 内存开始出货
电子设备
2025-03-10
来源:半导体行业跟踪报告之二十八:存储跌价即将结束,25Q2价格有望逐步回升
查看原文
三星发布 9100 Pro PCIe 5.0 SSD
电子设备
2025-03-10
来源:半导体行业跟踪报告之二十八:存储跌价即将结束,25Q2价格有望逐步回升
查看原文
2025 年 2 月 24 日至 2025 年 2 月 28 日 DRAM 市场报价
电子设备
2025-03-10
来源:半导体行业跟踪报告之二十八:存储跌价即将结束,25Q2价格有望逐步回升
查看原文
2025 年 2 月 17 日至 2025 年 2 月 21 日 DRAM 市场报价
电子设备
2025-03-10
来源:半导体行业跟踪报告之二十八:存储跌价即将结束,25Q2价格有望逐步回升
查看原文
回顶部
报告群
公众号
小程序
在线客服
收起