人工智能专题:DeepSeek的稀疏注意力机制给AI产业释放更大的发展潜能

第1页 / 共9页 本报告版权属于中原证券股份有限公司 www.ccnew.com 请阅读最后一页各项声明 计算机 分析师:唐月 登记编码:S0730512030001 tangyue@ccnew.com 021-50586737 DeepSeek 的稀疏注意力机制给 AI 产业释放更大的发展潜能 ——人工智能专题 证券研究报告-行业分析报告 强于大市(维持) 计算机相对沪深 300 指数表现 资料来源:中原证券研究所,聚源 相关报告 《人工智能专题:后 R1 时代,DeepSeek 发展的三大阶段》 2025-10-14 《计算机行业月报:国产算力芯片迎来高光时刻,超节点和集群层面双双赶超》 2025-09-19 《人工智能专题:三大要素齐发力,AI 应用步入全面加速期》 2025-03-07 联系人: 李智 电话: 0371-65585629 地址: 郑州郑东新区商务外环路10 号18 楼 地址: 上海浦东新区世纪大道1788 号T1 座22 楼 发布日期:2025 年 10 月 16 日 投资要点: ⚫ 人类在处理信息时选择性地关注关键信息,从而提高了处理效率和准确性。深度学习模仿人类的这种能力引入了注意力机制,从而给长文本处理带来了可能性。 ⚫ 由于注意力机制面临显存开销和计算复杂度两大发展瓶颈,为了不断通过 Scaling Law 提升大模型长文本处理能力和模型性能,AI 产业不断在进行算法、系统、硬件三个层面的提升和优化。其中在算法层面,DeepSeek 作为开源大模型领域的代表和低成本模型方向的标杆,在注意力机制的技术改进方面也做了大量的工作。 ⚫ NSA:2025 年 2 月,DeepSeek 梁文锋参与撰写的论文《Native Sparse Attention: Hardware-Aligned and Natively Trainable Sparse Attention》发布,提出了原生稀疏注意力(NSA),通过算法和硬件的协同优化,把长文本处理速度提升了 11 倍,并实现了与传统的全注意力模型相当或更优的性能。 ⚫ DSA:2025 年 9 月 DeepSeek 发布了 V3.2-Exp,它基于 V3.1-Terminus 构建,引入了新的注意力机制 DSA,在保持模型性能的稳定的同时,在训练推理效率方面有了较大的提升,带来了模型较大幅度的降价。由于不需要重新训练模型,而是进行原有模型的升级,可以更低成本地进行稀疏注意力的探索与实验。 ⚫ 稀疏注意力的引入将注意力计算复杂度从 O(L²)(L 为序列长度)降至亚平方级(如 O(Llog L)、(O(L*k)),从而突破内存与算力瓶颈。此前,稀疏注意力工作主要集中在推理阶段,而业界预训练阶段多采用稠密注意力机制,而 DeepSeek 的 NSA 和 DSA 在训练阶段引入了稀疏注意力,给大模型带来的计算效率的提升和模型上下文的拓展,将给后训练释放更大的发展潜能,成为推动模型能力不断突破的重要支撑。 风险提示:国际形势的不确定性。 -6%2%10%19%27%35%44%52%2024.102025.022025.062025.10计算机沪深300第2页 / 共9页 计算机 本报告版权属于中原证券股份有限公司 www.ccnew.com 请阅读最后一页各项声明 内容目录 1. 注意力机制与大模型发展的关系 ..................................................................... 3 2. DeepSeek 在注意力机制方面的技术改进 ....................................................... 3 3. DSA 和 NSA 给 AI 产业释放了更大的发展潜能 ............................................... 7 4. 风险提示 ......................................................................................................... 7 图表目录 图 1:DeepSeek-V2 中 MLA 对于降低 KV Cache 和训练成本的作用 .......................................... 4 图 2:MLA 与其他注意力机制的结构差异 ................................................................................ 4 图 3:NSA 模型效果及效率对比 ............................................................................................... 5 图 4:DeepSeek 模型 API 调用价格(元/百万 Tokens) ....................................................... 5 图 5:TileLang 简介 ................................................................................................................ 6 图 6:DeepSeek-V3.2-Exp 中 DSA 的实现原理 ..................................................................... 6 图 7:模型 Scaling 的新范式 ................................................................................................. 7 图 8:DeepSeek-R1-Zero 在训练中 AIME 精度提升情况 .......................................................... 7 图 9:DeepSeek-R1-Zero 在训练中的平均响应时长 ................................................................ 7 表 1:DeepSeek 的主要模型发布情况 ....................................................................................... 3 第3页 / 共9页 计算机 本报告版权属于中原证券股份有限公司 www.ccnew.com 请阅读最后一页各项声明 1. 注意力机制与大模型发展的关系 人类在处理信息时选择性地关注关键信息,从而提高了处理效率和准确性。深度

立即下载
电子设备
2025-10-16
中原证券
唐月
9页
1.02M
收藏
分享

[中原证券]:人工智能专题:DeepSeek的稀疏注意力机制给AI产业释放更大的发展潜能,点击即可下载。报告格式为PDF,大小1.02M,页数9页,欢迎下载。

本报告共9页,只提供前10页预览,清晰完整版报告请下载后查看,喜欢就下载吧!
立即下载
本报告共9页,只提供前10页预览,清晰完整版报告请下载后查看,喜欢就下载吧!
立即下载
水滴研报所有报告均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。
相关图表
盈利预测
电子设备
2025-10-16
来源:源杰科技深度报告:国内领先光芯片厂商,高端化演进提速
查看原文
主营业务预测
电子设备
2025-10-16
来源:源杰科技深度报告:国内领先光芯片厂商,高端化演进提速
查看原文
公司高功率连续波相关项目情况
电子设备
2025-10-16
来源:源杰科技深度报告:国内领先光芯片厂商,高端化演进提速
查看原文
电吸收调制器集成技术完成多项突破
电子设备
2025-10-16
来源:源杰科技深度报告:国内领先光芯片厂商,高端化演进提速
查看原文
全球前8家EML厂商市场份额
电子设备
2025-10-16
来源:源杰科技深度报告:国内领先光芯片厂商,高端化演进提速
查看原文
25GCWDM6波段DFB激光器芯片对比情况
电子设备
2025-10-16
来源:源杰科技深度报告:国内领先光芯片厂商,高端化演进提速
查看原文
回顶部
报告群
公众号
小程序
在线客服
收起