科技行业再谈NV的下一个Mellanox：Groq LPU的整合

免责声明和披露以及分析师声明是报告的一部分，请务必一起阅读。 1 证券研究报告科技再谈 NV 的下一个 Mellanox：Groq LPU 的整合华泰研究科技增持 (维持) 何翩翩研究员 SAC No. S0570523020002 SFC No. ASI353 purdyho@htsc.com +(852) 3658 6000 易楚妍联系人 SAC No. S0570124070123 SFC No. BXH065 yichuyan@htsc.com +(86) 21 2897 2228 韩冬冰* 联系人 SAC No. S0570125070150 handongbing@htsc.com +(86) 21 2897 2228 重点推荐股票名称股票代码目标价 (当地币种) 投资评级英伟达(NVIDIA) NVDA US 310.00 买入资料来源：华泰研究预测 2026 年 3 月 06 日│中国内地专题研究本报告延续我们 2026 年 1 月 12 日发布的《英伟达吸收 Groq 定义 AI 下半场》观点。彼时我们指出，英伟达整合 Groq 的战略，与其 2020 年收购 Mellanox 一脉相承，核心在于吸收人才及将领先的底层 IP 内生化，以补齐架构层面的结构性短板。尽管市场普遍预期英伟达可能在 GTC 2026 上发布一款独立的 LPU 机架，但我们认为仅为权宜之计。从长期战略视角看，我们预计，自 Feynman 架构起，Groq 的 LPU 将被纳入英伟达 GPU 路线图，并将确定性、低时延计算能力以架构级方式嵌入 CUDA 及 GPU 软件栈之中，为正在崛起的 Agentic AI 时代铺垫。我们认为，2026 年或为 Agentic AI 的元年。英伟达与 Groq 的整合，恰逢产业范式从以吞吐为核心的模型训练阶段，转向以低时延为核心的代理 AI 部署阶段。我们认为，在确立大模型训练阶段的领先地位后，英伟达正进一步定义 AI 下半场的架构规则。随着产业重心由吞吐驱动的训练转向时延驱动的代理 AI 部署，英伟达已同时掌握两种范式下的核心架构能力，建立双重平台的技术壁垒。 Feynman：顺应 Agentic AI 演进，与 Groq 恰逢其时的架构融合我们认为，此次整合在时间维度上具有明显的前瞻布局。我们预计 Feynman将以 Chiplet 形式，将 LPU 通过 TSV 与 SoIC 混合键合技术，与计算 Die面对面集成，并在 HBM 之外引入一层高速 SRAM 存储层，专为代理 AI Chain-of-Thought 推理场景优化。同时，Feynman 采用台积电 A16 制程亦具关键意义。其背面供电设计释放芯片正面空间，为垂直堆叠与高密度集成创造条件，但与此同时也将对热管理与功率管理提出更高要求。我们预计Feynman 有望于 2028 年推出，时间节点与代理 AI 商业化拐点大致重合。在互连层面，Groq 的 RealScale 架构在约 576 颗芯片规模时将面临确定性性能的物理上限。若将 LPU 封装于 Feynman 构架内部，英伟达有望绕开这一规模扩展的约束，使确定性执行层直接继承 NVLink 的扩展能力，而无需承受 Groq 独立拓扑结构所带来的规模限制。 CUDA：吸收 GroqWare，强化 Agentic AI 时代的生态锁定我们认为，软件层整合同样至关重要。GroqWare 采用以编译器静态调度为核心的执行模型，而 CUDA 则以运行时动态调度为基础，两者在执行哲学上存在根本差异。如何在不破坏现有生态的前提下实现融合，是此次整合的关键所在。我们预计英伟达将从三层架构推进整合：1）在编译器层面，将 GroqWare 的静态调度能力纳入 CUDA 编译流程，使确定性执行能力成为底层编译能力的一部分；2）在运行时层面，通过 TensorRT 作为调度桥梁，自动识别低批次、低时延、代理 AI 推理类负载，并将其分发至 LPU 执行；3）在生态层面，以标准 CUDA 纳入 LPU 能力，使现有深度学习框架无需修改即可调用相关算力资源。 LPU：聚焦低时延推理场景，而非全部推理负载我们认为 LPU 并非面向所有推理任务，其结构性优势主要体现在低时延或具有人机交互属性的代理 AI 场景。在此类场景中，核心瓶颈在于低时延约束下的内存带宽，而非计算吞吐能力本身。以大模型推理中的自回归解码阶段为例，尽管所有推理流程均包含解码，但在低批次、强时延约束的在线服务场景中，请求难以进行高效并行聚合，GPU 并行计算能力无法充分发挥，系统瓶颈随之转向内存带宽。我们认为，这类以低时延为核心约束的负载，正是 LPU 发挥优势的典型场景。在多步代理 AI 任务中，该特征或进一步放大。每一步推理的时延都会累积为端到端响应时间，并被用户直接感知。我们也认为，在这种高度顺序化的执行链条中，LPU 所提供的确定性、无资源争用的执行机制，相较传统 GPU 的动态调度体系，更具优势。风险提示：技术落地缓慢、需求不及预期等。免责声明和披露以及分析师声明是报告的一部分，请务必一起阅读。 2 科技本报告为我们于 2026 年 1 月 12 日发布的前期报告《英伟达吸收 Groq 定义 AI 下半场》的延续。在此前报告中，我们预计，英伟达对 Groq 的整合路径将遵循其 2020 年收购 Mellanox时所采用的战略框架，在英伟达 4Q 业绩会上 CEO 黄仁勋也提及该类比。我们认为，该战略的核心在于将行业内最具领先性的 IP 与核心人才体系内化，以弥补产品的结构性短板。正如英伟达当年将 Mellanox 的 InfiniBand 技术整合进 NVLink 与 NVSwitch 互联体系一样，我们认为，从长期战略来看，公司有望将 Groq 的 LPU 架构直接纳入其 GPU 产品路线图，最早可能从 Feynman 架构开始实现整合。但在短期内，作为权宜之计，我们认为英伟达更可能先推出一款独立的机架级 LPU 推理集群（或命名为 LPX），作为能够快速落地的阶段性产品。该系统预计将与 Rubin 与 Rubin Ultra GPU 机架并行部署运行。通过将面向低延迟推理场景的确定性执行模型纳入 CUDA 框架及整体 GPU 软件栈，英伟达获得的并非仅是一颗性能更高的推理加速器，而是在架构层面重构 Agentic AI 的执行范式，加速其规模化落地。我们认为英伟达已在以训练和算力为重心的 AI 上半场取得成功，目前正为 AI 下半场定义新的计算架构标准。我们也认为英伟达与 Groq 的合作 “恰逢其时”，旨在支撑并加速这一关键转型进程。若 2025 年是 Physical AI 元年，我们判断 2026 年将成为 Agentic Era 的开启之年，其核心特征在于计算范式向“以用户交互点为核心的低延迟、确定性执行”发生根本性迁移。当行业重心由以吞吐量为主导、英伟达 GPU 优势稳固的模型训练场景，转

立即下载

综合

2026-03-08

华泰证券

12页

2.17M

[华泰证券]:科技行业再谈NV的下一个Mellanox：Groq LPU的整合，点击即可下载。报告格式为PDF，大小2.17M，页数12页，欢迎下载。

本报告共12页，只提供前10页预览，清晰完整版报告请下载后查看，喜欢就下载吧！

立即下载

本报告共12页，只提供前10页预览，清晰完整版报告请下载后查看，喜欢就下载吧！

立即下载

水滴研报所有报告均是客户上传分享，仅供网友学习交流，未经上传用户书面授权，请勿作商用。

科技行业再谈NV的下一个Mellanox：Groq LPU的整合

关于我们

联系我们

科技行业再谈NV的下一个Mellanox：Groq LPU的整合

关于我们

联系我们

小程序

公众号