计算机行业周报：DeepSeek应用上线20天日活超2000万，R1模型强化学习技术突破

2025 年 02 月 13 日 DeepSeek 应用上线 20 天日活超 2000 万，R1 模型强化学习技术突破 —计算机行业周报推荐(维持) 投资要点分析师：宝幼琛 S1050521110002 baoyc@cfsc.com.cn 行业相对表现表现 1M 3M 12M 计算机(申万) 30.1 3.3 57.5 沪深 300 5.0 -4.1 16.5 市场表现资料来源：Wind，华鑫证券研究相关研究 1、《计算机行业点评报告：微软（MSFT.0）：营收利润稳健增长，资本开支继续扩张》2025-02-10 2、《计算机行业点评报告：谷歌（GOOGL.0）：财务表现整体较优，云业务不及预期》2025-02-10 3、《计算机行业周报：豆包实时语音大模型和大模型 1.5Pro 版本上线，美政府联手科技巨头启动》 2025-01-31 ▌算力：算力租赁价格平稳， AMD MI400 加速器曝光 2 月 3 日据 Videocardz 报道，AMD 的下一代 AI 加速器Instinct MI400 将配备两个有源转接层芯片(AID) ，每个AID 芯片将包含四个加速计算芯片(XCD)，即将拥有最多 8 个加速计算芯片，同时还拥有独立的多媒体（Multimedia） I/O Die。根据 AMD 此前公布的消息显示，其将于今年下半年推出新一代 AI 加速器 Instinct MI353X，该加速器将使用 3nm 工艺节点构建，GPU 将采用 CDNA 4 架构。在规格方面，内存将升级到更高的容量，最高可达 288 GB HBM3e，同时支持 FP4/FP6 数据类型。AMD 表示，CDNA 4 架构的性能比 CDNA 3 高出 35 倍，AI 计算增加了 7 倍，内存容量/带宽增加了 50%，速度比当前一代 MI300X 高出 8 TB/s，并且还配备了最新的网络效率进步。在性能方面，AMD Instinct MI355X AI GPU 将提供高达 2.3 PFLOP 的 FP16 性能，比 MI325X 高 80% ，而 FP8 数据也比 MI325X 高 80% ，达到 4.6 PFLOPS。新的 FP6 和 FP4 计算性能额定为 9.2 PFLOPS。此外，AMD 将于 2026 年发布更新一代的 Instinct MI400 系列加速器。AMD 表示这些加速器将基于 AMD CDNA"Next"架构，旨在提高 AI 训练和推理任务的性能和效率，但并未公布更细节的信息。据外媒 coelacanth-dream 报道称，AMD 最新曝光的“补丁”文件显示， MI400 将配备两个有源转接层芯片(AID) ，每个AID 芯片将包含四个加速计算芯片(XCD)，而 MI300 系列的每个 AID 只配备了两个 XCD。此外，AMD 还推出了一种名为Multimedia I/O Die 设计，据称能将多媒体引擎与 AID 分开，并且可能移动了接口处理的其他功能。 MI400 最多可能拥有两个 MID，每个 AID 可能拥有一个专用的 MID tile，与前几代相比，这将在计算单元和 I/O 接口之间提供高效的通信。即使在 MI350 上， AMD 也使用 infinity 结构进行芯粒间通信。因此，这是对 MI400 加速器的重大变化，MI400 加速器针对大规模 AI 训练和推理任务，并将基于 CDNA-Next 架构，该架构可能会更名为 UDNA -40-200204060(%)计算机沪深300证券研究报告行业研究证券研究报告请阅读最后一页重要免责声明 2 诚信、专业、稳健、高效并作为 RDNA 和 CDNA 架构统一战略的一部分。 ▌AI 应用：DeepSeek 应用上线 20 天日活超 2000万， DeepSeek-R1 强化学习技术突破 DeepSeek 应用（APP） 2025 年 1 月 11 日发布，截止 1 月31 日上线仅 21 天，日活跃用户 DAU 2215 万，达 ChatGPT 日活用户的 41.6%，超过豆包的日活用户 1695 万，成为全球增速最快的 AI 应用。 DeepSeek 应用（APP）2025 年 1 月月活跃用户（MAU）3370 万，海外用户占比 70%，月活跃用户（MAU）占比最多的前五个国家为：中国（30.71%），印度（ 13.59% ），印尼（ 6.94% ），美国（ 4.34% ），法国（3.21%）。DeepSeek 应用（APP）上线 21 天，凭 3370 万月活 MAU，全球总榜 TOP 4。截止 1 月 31 日 DeepSeek 霸榜苹果应用商店 157 个国家/地区的第一名，这其中包含美国。 DeepSeek 的第一代推理模型 DeepSeek-R1-Zero 是一种通过大规模强化学习(Reinforcement Learning, RL)训练的模型，在初始阶段未依赖监督微调(Supervised Fine-Tuning, SFT)，但表现出卓越的推理能力。在强化学习过程中，DeepSeek-R1-Zero 展现出多种强大的推理行为，但该模型面临诸如可读性差和语言混杂等挑战。为了解决这些问题并进一步提升推理性能，DeepSeek 进一步开发了 DeepSeek-R1，该模型在强化学习之前加入了多阶段训练流程和冷启动数据。 DeepSeek 首次尝试使用纯强化学习来提升语言模型的推理能力，旨在探索大语言模型在没有任何监督数据的情况下开发推理能力的潜力，重点关注其通过纯 RL 流程实现的自我演化。具体来说，DeepSeek 使用 DeepSeek-V3-Base 作为基础模型，并采用 GRPO 强化学习框架来提升模型在推理任务中的性能。由技术报告得知，DeepSeek 使用 H800 的 GPU 做训练，且只有两千张左右的 H800，整个 DeepSeek-V3 的正式训练成本不超过 600 万美元。具体而言， DeepSeek 首先收集了数千条冷启动数据对 DeepSeek-V3-Base 模型进行微调，随后与 DeepSeek-R1-Zero 类似，执行以推理为导向的强化学习。在强化学习过程接近收敛时，通过在 RL 检查点上进行拒绝采样，结合 DeepSeek-V3 的监督数据（包括写作、事实问答、以及自我认知等领域），生成新的 SFT 数据并重新训练模型。在微调完成后，该检查点继续进行强化学习，以涵盖所有场景的prompt。经过这些步骤后，得到了名为 DeepSeek-R1 的检查点。 DeepSeek-R1 在 AIME 2024 基准测试中取得了 79.8% 的 pass@1 得分，略微超过了 OpenAI-o1-1217。在 MATH-500 测试中， DeepSeek-R1 取得了 97.3% 的出色成绩，与证券研究报告请阅读最后一页重要免责声明 3 诚信、专业、稳健、高效 Open

立即下载

电子设备

2025-02-13

华鑫证券

宝幼琛

16页

1.08M

[华鑫证券]:计算机行业周报：DeepSeek应用上线20天日活超2000万，R1模型强化学习技术突破，点击即可下载。报告格式为PDF，大小1.08M，页数16页，欢迎下载。

本报告共16页，只提供前10页预览，清晰完整版报告请下载后查看，喜欢就下载吧！

立即下载

本报告共16页，只提供前10页预览，清晰完整版报告请下载后查看，喜欢就下载吧！

立即下载

水滴研报所有报告均是客户上传分享，仅供网友学习交流，未经上传用户书面授权，请勿作商用。

计算机行业周报：DeepSeek应用上线20天日活超2000万，R1模型强化学习技术突破

关于我们

联系我们

计算机行业周报：DeepSeek应用上线20天日活超2000万，R1模型强化学习技术突破

关于我们

联系我们

小程序

公众号