战略投资元川微,加码边缘及端侧AI推理赛道

请务必阅读正文之后的免责声明及其项下所有内容证券研究报告 | 2026年03月15日优于大市1智微智能(001339.SZ)战略投资元川微,加码边缘及端侧 AI 推理赛道 公司研究·公司快评 计算机·计算机设备 投资评级:优于大市(维持)证券分析师:熊莉021-61761067xiongli1@guosen.com.cn执证编码:S0980519030002证券分析师:艾宪0755-22941051aixian@guosen.com.cn执证编码:S0980524090001事项:智微智能全资控股曜腾投资,2026 年 3 月 2 日,杭州元川微科技有限公司完成工商变更,深圳市曜腾投资成为其新进股东。国信计算机观点:1)元川微是国内 LPU 架构先行者:国内首家专注于 AI 实时推理算力芯片的初创企业,技术路线上回归 AI 推理的第一性原理,产品精准满足行业对确定性超低时延、高吞吐算力、极致能效比及高性价比的核心诉求,为边端智能提供高效、可落地的算力基础设施。2)LPU(Language Processing Unit,语言处理单元)专为推理设计的 AI 芯片:其核心是张量流处理器(TSP)的设计和实现,TSP 将功能单元转移到核心之外,以 2D 网络方式排列,每一列只包含特定类型的功能单元(称为切片 Slice)。指令流沿着垂直方向(南北方向)运行,数据流沿着水平方向(东西方向)运行,TSP 可以确定在每一个时间点,X轴流动的数据和 Y 轴流动的指令恰好交叉,进行运算,运算结果会向东或向西传送到下一个切片进行下一步处理,而指令控制单元(ICU)同时在最底部的切片发出新的指令。3)LPU 具备高输出、低时延、低能耗优势:根据 Artificial Analysisi 披露数据,以 Llama 3.3 Instruct 70B 为测试对象,Groq 的输出速度(Output Speed)为 306 Token/s,业内领先;Groq 的端到端响应时间(End-to-End Response Time)为 2.4s(输出 500 个 Token),业内领先。根据 Thunder Said Energy 披露数据,推理领域,LPU 的每 Token能耗不到 GPU 的 1/4,能耗优势明显。4)投资建议:基于 Token 出海、国内大模型快速发展,智算需求快速增长,公司 2026 年智算业务有望快速增长;此外,27 年 LPU 服务器产品有望开始放量,打开第二增长曲线,上调盈利预测,预计 2025-2027 年收入 44.96/58.24/71.62 亿元(前值为 46.93/53.27/59.60 亿元),归母净利润 1.99/6.14/7.30 亿元(前值为 2.21/2.69/3.29 亿元),当前股价对应 PE=92/30/25x,维持“优于大市”评级。5)风险提示:传统主业所处行业下行的风险、产品价格下行及毛利率下降的风险、部分产品依赖单一大客户的风险、贸易保护主义和贸易摩擦风险等。评论: 智微智能战略投资元川微,加码边缘及端侧 AI 推理赛道2026 年 3 月 2 日,杭州元川微科技有限公司完成工商变更,深圳市曜腾投资成为其新进股东。元川微是国内 LPU 架构先行者,亦是国内首家专注于 AI 实时推理算力芯片的初创企业,技术路线上回归 AI 推理的第一性原理,产品精准满足行业对确定性超低时延、高吞吐算力、极致能效比及高性价比的核心诉求,为边端智能提供高效、可落地的算力基础设施。请务必阅读正文之后的免责声明及其项下所有内容证券研究报告2图1:元川微变更工商信息图2:智微智能全资控股曜腾投资资料来源:国家企业信用信息公示系统,国信证券经济研究所整理资料来源:企查查,国信证券经济研究所整理 LPU(Language Processing Unit,语言处理单元):专为推理设计的 AI 芯片发展历史:2016 年初创公司 Groq 成立,率先提出 LPU 概念;2023 年 Groq LPU 开始小规模商用,2024 年GroqCloud 正式上线,开始大规模商用;2025 年 12 月 24 日,英伟达以 200 亿美金收购 Groq,为英伟达历史上最大规模的收购。硬件架构:LPU 的核心是张量流处理器(TSP)的设计和实现,传统的多核芯片平铺结构(每一个小方块Tile 代表一个处理核心),核心由一组功能单元组成,负责不同类型的计算(算术运算、内存运算、逻辑运算、指令控制等),而 TSP 将功能单元转移到核心之外,以 2D 网络方式排列,每一列只包含特定类型的功能单元(称为切片 Slice)。数据流和指令流:TSP 以 SIMD(单指令多数据)方式执行指令,此处每个切片由 20 个 Tile(方块)构成,且单个 Tile 可处理 16 个数,则其共可处理 320(=20*16)个元素的向量。指令流沿着垂直方向(南北方向)运行,数据流沿着水平方向(东西方向)运行,TSP 可以确定在每一个时间点,X 轴流动的数据和 Y轴流动的指令恰好交叉,进行运算,运算结果会向东或向西传送到下一个切片进行下一步处理,而指令控制单元(ICU)同时在最底部的切片发出新的指令。图3:二维核架构重新组织成按功能切分的块阵列资料来源:D.Abts 等著-《Think Fast: A Tensor Streaming Processor (TSP) for Accelerating Deep Learning Workloads》-ISCA(2020)-P145,国信证券经济研究所整理请务必阅读正文之后的免责声明及其项下所有内容证券研究报告3图4:数据流在行间流动图5:指令执行和数据流动资料来源:D.Abts 等著-《Think Fast: A Tensor Streaming Processor(TSP) for Accelerating Deep Learning Workloads》-ISCA(2020)-P146,国信证券经济研究所整理资料来源:D.Abts 等著-《Think Fast: A Tensor Streaming Processor(TSP) for Accelerating Deep Learning Workloads》-ISCA(2020)-P150,国信证券经济研究所整理图6:Groq LPU 硬件架构图7:Groq 软硬件架构资料来源:Groq,国信证券经济研究所整理资料来源:Groq,国信证券经济研究所整理LPU 设计原则:LPU 设计包含四大原则,分别是以软件为先、可编程流水线架构、确定性的计算和网络、片上(On-Chip)存储。原则一:软件为先。同传统的 GPU/CPU 的调度器相比(采用动态调度),LPU 采用静态调度方案,核心在于编译器,可以把每一条指令、每一条数据规划精确到纳米级;原则二:可编程流水线架构。同传统 GPU 的 Hub and Spoke 架构不同,LPU 采用可编程流水线架构,不需要等待计算、内存资源,亦无需额外的控制器,流水线运行平稳高效,完全同步;原则三:确定性的计算和网络。为了使流水线高效运行,必须对每一步所需时间进行高度把控,则 LP

立即下载
电子设备
2026-03-15
国信证券
熊莉,艾宪
11页
1.05M
收藏
分享

[国信证券]:战略投资元川微,加码边缘及端侧AI推理赛道,点击即可下载。报告格式为PDF,大小1.05M,页数11页,欢迎下载。

本报告共11页,只提供前10页预览,清晰完整版报告请下载后查看,喜欢就下载吧!
立即下载
本报告共11页,只提供前10页预览,清晰完整版报告请下载后查看,喜欢就下载吧!
立即下载
水滴研报所有报告均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。
相关图表
各世代 HBM 产品规格对比
电子设备
2026-03-15
来源:电子行业GTC大会前瞻:LPU、CPO和存储
查看原文
英伟达 CPO roadmap
电子设备
2026-03-15
来源:电子行业GTC大会前瞻:LPU、CPO和存储
查看原文
基于 LPU 的系统
电子设备
2026-03-15
来源:电子行业GTC大会前瞻:LPU、CPO和存储
查看原文
推理模型的 tokens 用量超过一半
电子设备
2026-03-15
来源:电子行业GTC大会前瞻:LPU、CPO和存储
查看原文
电子化学品涨跌 TOP5
电子设备
2026-03-15
来源:电子行业GTC大会前瞻:LPU、CPO和存储
查看原文
光学光电子涨跌 TOP5
电子设备
2026-03-15
来源:电子行业GTC大会前瞻:LPU、CPO和存储
查看原文
回顶部
报告群
公众号
小程序
在线客服
收起