计算机行业研究:算力再次加速的底层逻辑
敬请参阅最后一页特别声明 1 计算需求范式跃迁:从 Prompt 到长 Agent 1)人工智能的交互范式正在经历根本性转变,AI系统已从单次问答工具演进为能够推理、规划、持续运行的自主Agent,趋势已获明确印证:OpenRouter 平台数据显示多步骤推理和链式工具调用正在快速取代传统单轮交互。开源Agent框架 OpenClaw 发布仅四个多月便以超过 24.8 万 GitHub 星标登顶全球开源项目榜首,标志着长运行 Agent 从实验阶段全面进入生产部署。2)Agent 任务对 Token 的消耗已远超传统问答场景:Anthropic 实测数据显示,单 Agent 消耗约为对话模式的 4 倍,多 Agent 系统则高达 15 倍。NVIDIA 在其 2026 年 1 月技术博客中亦明确指出,下一代 AI 工厂必须具备处理数十万输入 Token 的能力,以支撑 Agentic 推理所需的长上下文。范式跃迁已经发生,算力需求的新增长逻辑形成。 长 Agent 驱动算力需求非线性提升 长 Agent 对算力需求的拉动有几个核心原因: 1)技术机制:首先大模型自注意力机制的计算成本与上下文长度呈二次方增长,其次推理 Decode 阶段天然受制于内存带宽,随着 KV Cache 随上下文线性膨胀,GPU 利用率持续下降,吞吐瓶颈日益突出,主流厂商的定价结构就是物理成本的体现:谷歌 Gemini 3.1 Pro 和阿里云 Qwen 均采用按上下文长度分档的阶梯定价。2)多 Agent 协作架构的兴起引入了额外的通信开销维度。Gartner 数据显示,2024 年 Q1 至 2025年 Q2 企业对多 Agent 系统的询盘量暴增 1445%;而 Google DeepMind 研究指出,并行 Agent 之间的全局上下文压缩传递会产生不可避免的"协调税",通信成本随 Agent 数量非线性扩大。3)杰文斯悖论进一步放大了上述效应,微软 CEO纳德拉预判,模型推理效率的提升带来成本下降反而刺激使用量以更快速度增长。综合分析,我们认为 Agent 运行时长的增加是技术趋势的必然,在可见的未来,对内存带宽、互联吞吐与智能计算密度的需求,将持续以非线性速率扩张。 投资建议 相关标的: 海外算力/存储:中际旭创、东山精密、胜宏科技、天孚通信、新易盛、工业富联、兆易创新、大普微、源杰科技、景旺电子、英维克等;Lumentum、闪迪、铠侠、美光、SK 海力士、中微公司、北方华创、拓荆科技、长川科技。 国内算力:寒武纪、东阳光、海光信息、协创数据、豫能控股、华丰科技、亿田智能、星环科技、网宿科技、首都在线、神州数码、百度集团、大位科技、润建股份、中芯国际、华虹半导体、中科曙光、润泽科技、浪潮信息、东山精密、奥飞数据、云赛智联、瑞晟智能、科华数据、潍柴重机、金山云、欧陆通、杰创智能。 CPU:海光信息、中科曙光、澜起科技、禾盛新材、中国长城、龙芯中科、兴森科技、深南电路、宏和科技、广合科技。 AI 应用:1)超级入口:腾讯控股、Minimax、智谱、阿里巴巴、科大讯飞。2)星环科技、德才股份、美年健康、中控技术、卓易信息、昆仑万维等 AI INFRA&高增长&高壁垒。其他:空天时代、具身智能等。 风险提示 行业竞争加剧的风险;技术迭代不及预期的风险;特定行业下游资本开支周期性波动的风险。 行业点评 敬请参阅最后一页特别声明 2 扫码获取更多服务 一、计算需求范式跃迁:从 Prompt 到长 Agent 1.1 从 Prompt 到长 Agent 的变迁 据英伟达 GTC 2026 大会博客,人工智能正从简单的、基于 Prompt 的工具发展成为能够推理、规划和行动的智能、长期运行的系统。这些自主 Agent 不仅能生成文本,还能编写代码、调用工具、分析数据、模拟结果并持续改进。 大模型聚合平台 OpenRouter 的报告也提到 LLM 的使用正从单回合交互转向智能推理,模型需要进行规划、推理和执行,并跨越多个步骤。它们不再生成一次性响应,而是协调工具调用、访问外部数据,并迭代优化输出以达成目标。早期证据表明,多步骤查询和链式工具使用正在增加。随着这种范式的扩展,评估标准将从语言质量转向任务完成度和效率。下一个竞争前沿是模型执行持续推理的有效性,这一转变最终可能会重新定义大规模智能推理在实践中的意义。 科创板日报 2026 年 3 月 3 日报道,发布仅四个多月的开源智能体项目 OpenClaw 创造了历史——以超过 24.8 万的 GitHub 星标数正式登顶星标榜,超越 Linux 成为 GitHub 平台上最受欢迎的开源项目。OpenClaw 的爆炸性扩散,标志着长运行 Agent 从实验阶段进入大规模生产部署。 图表1:OpenClaw 的 GitHub 星标增长趋势 来源:star-history,国金证券研究所 1.2 Agent 上下文长度的结构性增长 Agent 任务中模型所需处理的 Token 数量往往远超传统问答场景。 Anthropic 发表的测试数据表示智能体通常比聊天交互消耗的令牌多约 4 倍,而多智能体系统比聊天消耗的令牌多约 15 倍。 英伟达 2026 年 1 月的技术博客对下一代 AI 工厂的计算需求做出了明确定性:为了大规模地提供这些功能,下一代 AI 工厂必须处理数十万个输入标记,以提供智能推理、复杂工作流程和多模态管道所需的长期上下文,同时在功率、可靠性、安全性、部署速度和成本的限制下维持实时推理。 二、为何长 Agent 驱动算力需求非线性提升 2.1:大模型架构的天然机制 行业点评 敬请参阅最后一页特别声明 3 扫码获取更多服务 首先广为人知的点在于大模型的自注意力机制的计算成本与上下文长度呈二次方关系。 其次,另一个瓶颈在于内存:大型语言模型的推理分为两个阶段:Prefill(预填充)阶段与 Decode(解码)阶段。前者对输入 Token 并行处理,计算效率较高;后者逐 Token串行生成,天然受制于内存带宽。 行业研究机构 Clarifai 明确指出,解码发生在预填充阶段之后,每次生成一个 token;每个 token 的计算都依赖于之前所有 token,因此该阶段是顺序执行且受限于内存。模型会从之前的步骤中检索缓存的键值对,并为每个 token 添加新的键值对,这意味着限制吞吐量的是内存带宽,而非计算能力。由于模型无法跨 token 并行处理,GPU 核心经常在等待内存读取时处于空闲状态,导致利用率不足。随着上下文窗口增长到 8K、16K 甚至更大,键值缓存(KV Cache)变得非常庞大,进一步加剧了这一瓶颈。 图表2:KV Cache 工作机制示意图 来源:英伟达,国金证券研究所 从成本角度看,Token 阶梯定价正是这种算力瓶颈的货币化表现。在当前许多大模型厂商都按上下文长度阶梯定价。 例如 2026 年初,谷歌发布的 Gemini 3.1 Pro 定价: 输入 token:每百万 2.00 美元(输入量 <= 200K),每百万 4.00 美元(输入量 > 200K)。 输出 token:每百万 1
[国金证券]:计算机行业研究:算力再次加速的底层逻辑,点击即可下载。报告格式为PDF,大小1.28M,页数8页,欢迎下载。



