科技行业再谈NV的下一个Mellanox:Groq LPU的整合

免责声明和披露以及分析师声明是报告的一部分,请务必一起阅读。 1 证券研究报告 科技 再谈 NV 的下一个 Mellanox:Groq LPU 的整合 华泰研究 科技 增持 (维持) 何翩翩 研究员 SAC No. S0570523020002 SFC No. ASI353 purdyho@htsc.com +(852) 3658 6000 易楚妍 联系人 SAC No. S0570124070123 SFC No. BXH065 yichuyan@htsc.com +(86) 21 2897 2228 韩冬冰* 联系人 SAC No. S0570125070150 handongbing@htsc.com +(86) 21 2897 2228 重点推荐 股票名称 股票代码 目标价 (当地币种) 投资评级 英伟达(NVIDIA) NVDA US 310.00 买入 资料来源:华泰研究预测 2026 年 3 月 06 日│中国内地 专题研究 本报告延续我们 2026 年 1 月 12 日发布的《英伟达吸收 Groq 定义 AI 下半场》观点。彼时我们指出,英伟达整合 Groq 的战略,与其 2020 年收购 Mellanox 一脉相承,核心在于吸收人才及将领先的底层 IP 内生化,以补齐架构层面的结构性短板。尽管市场普遍预期英伟达可能在 GTC 2026 上发布一款独立的 LPU 机架,但我们认为仅为权宜之计。从长期战略视角看,我们预计,自 Feynman 架构起,Groq 的 LPU 将被纳入英伟达 GPU 路线图,并将确定性、低时延计算能力以架构级方式嵌入 CUDA 及 GPU 软件栈之中,为正在崛起的 Agentic AI 时代铺垫。我们认为,2026 年或为 Agentic AI 的元年。英伟达与 Groq 的整合,恰逢产业范式从以吞吐为核心的模型训练阶段,转向以低时延为核心的代理 AI 部署阶段。我们认为,在确立大模型训练阶段的领先地位后,英伟达正进一步定义 AI 下半场的架构规则。随着产业重心由吞吐驱动的训练转向时延驱动的代理 AI 部署,英伟达已同时掌握两种范式下的核心架构能力,建立双重平台的技术壁垒。 Feynman:顺应 Agentic AI 演进,与 Groq 恰逢其时的架构融合 我们认为,此次整合在时间维度上具有明显的前瞻布局。我们预计 Feynman将以 Chiplet 形式,将 LPU 通过 TSV 与 SoIC 混合键合技术,与计算 Die面对面集成,并在 HBM 之外引入一层高速 SRAM 存储层,专为代理 AI Chain-of-Thought 推理场景优化。同时,Feynman 采用台积电 A16 制程亦具关键意义。其背面供电设计释放芯片正面空间,为垂直堆叠与高密度集成创造条件,但与此同时也将对热管理与功率管理提出更高要求。我们预计Feynman 有望于 2028 年推出,时间节点与代理 AI 商业化拐点大致重合。在互连层面,Groq 的 RealScale 架构在约 576 颗芯片规模时将面临确定性性能的物理上限。若将 LPU 封装于 Feynman 构架内部,英伟达有望绕开这一规模扩展的约束,使确定性执行层直接继承 NVLink 的扩展能力,而无需承受 Groq 独立拓扑结构所带来的规模限制。 CUDA:吸收 GroqWare,强化 Agentic AI 时代的生态锁定 我们认为,软件层整合同样至关重要。GroqWare 采用以编译器静态调度为核心的执行模型,而 CUDA 则以运行时动态调度为基础,两者在执行哲学上存在根本差异。如何在不破坏现有生态的前提下实现融合,是此次整合的关键所在。我们预计英伟达将从三层架构推进整合:1)在编译器层面,将 GroqWare 的静态调度能力纳入 CUDA 编译流程,使确定性执行能力成为底层编译能力的一部分;2)在运行时层面,通过 TensorRT 作为调度桥梁,自动识别低批次、低时延、代理 AI 推理类负载,并将其分发至 LPU 执行;3)在生态层面,以标准 CUDA 纳入 LPU 能力,使现有深度学习框架无需修改即可调用相关算力资源。 LPU:聚焦低时延推理场景,而非全部推理负载 我们认为 LPU 并非面向所有推理任务,其结构性优势主要体现在低时延或具有人机交互属性的代理 AI 场景。在此类场景中,核心瓶颈在于低时延约束下的内存带宽,而非计算吞吐能力本身。以大模型推理中的自回归解码阶段为例,尽管所有推理流程均包含解码,但在低批次、强时延约束的在线服务场景中,请求难以进行高效并行聚合,GPU 并行计算能力无法充分发挥,系统瓶颈随之转向内存带宽。我们认为,这类以低时延为核心约束的负载,正是 LPU 发挥优势的典型场景。在多步代理 AI 任务中,该特征或进一步放大。每一步推理的时延都会累积为端到端响应时间,并被用户直接感知。我们也认为,在这种高度顺序化的执行链条中,LPU 所提供的确定性、无资源争用的执行机制,相较传统 GPU 的动态调度体系,更具优势。 风险提示:技术落地缓慢、需求不及预期等。 免责声明和披露以及分析师声明是报告的一部分,请务必一起阅读。 2 科技 本报告为我们于 2026 年 1 月 12 日发布的前期报告《英伟达吸收 Groq 定义 AI 下半场》的延续。在此前报告中,我们预计,英伟达对 Groq 的整合路径将遵循其 2020 年收购 Mellanox时所采用的战略框架,在英伟达 4Q 业绩会上 CEO 黄仁勋也提及该类比。我们认为,该战略的核心在于将行业内最具领先性的 IP 与核心人才体系内化,以弥补产品的结构性短板。 正如英伟达当年将 Mellanox 的 InfiniBand 技术整合进 NVLink 与 NVSwitch 互联体系一样,我们认为,从长期战略来看,公司有望将 Groq 的 LPU 架构直接纳入其 GPU 产品路线图,最早可能从 Feynman 架构开始实现整合。但在短期内,作为权宜之计,我们认为英伟达更可能先推出一款独立的机架级 LPU 推理集群(或命名为 LPX),作为能够快速落地的阶段性产品。该系统预计将与 Rubin 与 Rubin Ultra GPU 机架并行部署运行。通过将面向低延迟推理场景的确定性执行模型纳入 CUDA 框架及整体 GPU 软件栈,英伟达获得的并非仅是一颗性能更高的推理加速器,而是在架构层面重构 Agentic AI 的执行范式,加速其规模化落地。 我们认为英伟达已在以训练和算力为重心的 AI 上半场取得成功,目前正为 AI 下半场定义新的计算架构标准。我们也认为英伟达与 Groq 的合作 “恰逢其时”,旨在支撑并加速这一关键转型进程。若 2025 年是 Physical AI 元年,我们判断 2026 年将成为 Agentic Era 的开启之年,其核心特征在于计算范式向“以用户交互点为核心的低延迟、确定性执行”发生根本性迁移。当行业重心由以吞吐量为主导、英伟达 GPU 优势稳固的模型训练场景,转

立即下载
综合
2026-03-08
华泰证券
12页
2.17M
收藏
分享

[华泰证券]:科技行业再谈NV的下一个Mellanox:Groq LPU的整合,点击即可下载。报告格式为PDF,大小2.17M,页数12页,欢迎下载。

本报告共12页,只提供前10页预览,清晰完整版报告请下载后查看,喜欢就下载吧!
立即下载
本报告共12页,只提供前10页预览,清晰完整版报告请下载后查看,喜欢就下载吧!
立即下载
水滴研报所有报告均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。
相关图表
典型场景废钢回收量 图表43:废钢到货量
综合
2026-03-08
来源:黑色金属周报:钢厂春补已结束,地缘和制裁事件驱动铁矿反弹
查看原文
国内焦煤库存 图表41:国内焦炭库存
综合
2026-03-08
来源:黑色金属周报:钢厂春补已结束,地缘和制裁事件驱动铁矿反弹
查看原文
焦企日均焦炭产量(万吨) 图表39:钢企日均焦炭产量(万吨)
综合
2026-03-08
来源:黑色金属周报:钢厂春补已结束,地缘和制裁事件驱动铁矿反弹
查看原文
焦煤月度供需情况 图表37:蒙煤通关量(万吨)
综合
2026-03-08
来源:黑色金属周报:钢厂春补已结束,地缘和制裁事件驱动铁矿反弹
查看原文
铁矿港口库存 图表35:铁矿钢企库存
综合
2026-03-08
来源:黑色金属周报:钢厂春补已结束,地缘和制裁事件驱动铁矿反弹
查看原文
铁矿发运量 图表33:中国铁矿日均到港量(万吨)
综合
2026-03-08
来源:黑色金属周报:钢厂春补已结束,地缘和制裁事件驱动铁矿反弹
查看原文
回顶部
报告群
公众号
小程序
在线客服
收起