机器人大模型行业深度报告:我们距离真正的具身智能大模型还有多远?

机器人大模型深度报告我们距离真正的具身智能大模型还有多远?证券研究报告请务必阅读正文之后的免责声明部分1首席证券分析师:周尔双执业证书编号:S0600515110002zhouersh@dwzq.com.cn证券分析师:钱尧天执业证书编号:S0600524120015qianyt@dwzq.com.cn研究助理:陶泽执业证书编号:S0600125080004taoz@dwzq.com.cn2025 年 8 月 9 日21. 人形机器人为何需要高智能的大模型?尽管人形机器人的形态早已实现工程可行,但其真正实现产业化落地的关键,在于摆脱传统工业机器人“控制刚、泛化弱”的局限,补足对不确定性的理解与适应能力。工业机器人主要基于确定性控制逻辑运行,缺乏感知、决策与反馈能力,导致高度依赖集成,成本高、通用性差。相比之下,人形机器人以“通用智能体”为目标,强调感知—推理—执行的完整链路,必须依托大模型支撑的多模态理解与泛化能力,才能适应复杂任务与动态环境。当前多模态大模型的兴起,为人形机器人提供了“初级大脑”,开启从0到1的智能进化,并通过数据飞轮实现模型能力与产品性能的持续提升。然而整体智能化仍处于L2初级阶段,通往泛化智能仍面临建模方法、数据规模与训练范式等多重挑战,高智能大模型将是贯通通用人形机器人路径的核心变量。2.从架构端和数据端看,目前机器人大模型的进展如何?当前机器人大模型的快速演进,主要得益于架构端与数据端的协同突破。架构上,从早期的SayCan语言规划模型,到RT-1实现端到端动作输出,再到PaLM-E、RT2将多模态感知能力融合至统一模型空间,大模型已逐步具备“看图识意、理解任务、生成动作”的完整链条。2024年π0引入动作专家模型,动作输出频率达50Hz;2025年Helix实现快慢脑并行架构,控制频率突破至200Hz,显著提升机器人操作的流畅性与响应速度。数据端,已形成互联网、仿真、真机动作三类数据协同支撑的结构化体系:前两者提供预训练量级与泛化场景,后者则直接提升模型在物理世界中的实用能力。其中,真机数据采集对高精度动捕设备依赖度高,光学动捕以精度优势适配集中式训练场,有望成为具身模型训练的核心数据来源。当前主流训练范式正由“低质预训练+高质后调优”快速迭代,模型智能的跃迁正转向“从数据堆料到结构优化”的阶段。3.未来大模型的发展方向是什么?面向未来,具身大模型将在模态扩展、推理机制与数据构成三方面持续演进。当前主流模型多聚焦于视觉、语言与动作三模态,下一阶段有望引入触觉、温度等感知通道;Cosmos等架构尝试通过状态预测赋予机器人“想象力”,实现感知—建模—决策闭环,构建更真实的“世界模型”,提升机器人环境建模与推理能力;数据端,仿真与真实数据融合训练成为主流方向,高标准、可扩展的训练场正成为通用机器人训练体系的关键支撑。4.投资建议模型端建议关注【银河通用(一级公司)】【星动纪元(一级公司)】【智元机器人(一级公司)】,数据采集领域建议关注【青瞳视觉(一级公司)】【凌云光(688400.SH)】【奥比中光(688322.SH)】,数据训练场领域建议关注【天奇股份(002009.SZ)】 。5.风险提示大模型技术进展不及预期,高质量数据获取受限,人形机器人需求不及预期。投资要点:3目录1.人形机器人为何需要高智能的大模型?2.从架构端和数据端看,目前机器人大模型的进展如何?3.未来大模型的发展方向是什么?5.投资建议与风险提示4.相关标的1.1人形形态并非技术难点,核心在于通用智能的补足⚫ 人形形态的机器人早已实现工程落地,但长期停留在“仿形不仿智”阶段。过去的人形机器人主要以模仿人类形态为目标,相关技术早在数十年前已初步成熟。早期典型代表如2000年本田推出的ASIMO与2013年波士顿动力的Atlas,虽具备出色的运动能力,但执行逻辑高度依赖预设行为库。这类机器人可完成跑跳等复杂动作,体现了运动控制硬件的成熟度,但其行为均来自人工设定的指令序列,无法自主理解任务或适应环境变化。因此,本质上这类产品仍是“人形的机器”,而非“具备人类智能的机器人”。它们缺乏对环境的感知、任务的理解与泛化能力,尚不具备真正的智能交互与通用任务执行潜力。图:美国波士顿动力Atlas机器人运动图图:日本本田ASIMO机器人跑步图4数据来源:极果公众号,环球网科技,东吴证券研究所⚫ 本轮人形机器人热潮的底层驱动力,是市场对其“智能性”的高度期待。随着多模态大模型的突破,机器人首次具备了“感知—理解—决策”的潜力,被视为拥有“大脑”的关键起点。大语言模型(LLM)的成功,验证了通过大规模互联网文本训练神经网络具备推理能力的可行性;而视觉语言模型(VLM)进一步拓展模态边界,使模型可以“看懂图像、理解语言”。LLM专注于文本推理,VLM则通过融合图像/视频与语言等模态信息,构建起跨模态的统一表征体系,从而支持模型理解现实世界的更多维度。⚫ 动作模态的融入,让模型端真正赋予机器人执行操作的能力。仅能感知、理解世界并不是机器人大脑的终极目标,机器人的最终目标是在认知的基础上实现与现实世界的动作交互。目前机器人模型的核心迭代方向,是将动作模态融入现有的视觉语言模型。5图:从LLM到VLM,AI对现实世界感知不断丰富1.2 多模态大模型的出现,为人形机器人装上“智能数据来源:芝能智芯公众号,东吴证券研究所6⚫ 当前大多数人形机器人仍处于展示阶段,核心瓶颈在于智能程度不足。一旦具备初步智能化能力,机器人即可在特定场景中落地应用,并通过任务反馈不断优化模型,开启数据飞轮与产品迭代循环,从0-1迈向1-100的演化。⚫ 数据飞轮是驱动智能系统能力提升的核心机制。本质是“收集数据—改进模型—提升产品—吸引更多用户和数据—再次改进”的正向循环,有望带动人形机器人快速迈入迭代加速期。图:数据飞轮1.3 初级具身智能模型撬动人形机器人产业0-1落地更多的用户更多的数据更好的模型更好的产品数据飞轮数据来源:东吴证券研究所整理7⚫ 现阶段人形机器人仅在智能化的初级阶段。北京市人形机器人创新中心牵头,联合上海市、浙江省人形机器人创新中心,以及优必选、宇树科技、中国信息通信研究院、工业互联网研究院等多家头部企业与科研机构,共同制定了全球首个《人形机器人智能化分级》标准,从感知、决策、执行、协作四维度划分L1-L5五级。目前主流产品智能水平普遍仅在L2左右,尚未具备自主泛化与应变能力。未来向更高智能等级进化仍需突破模型、数据与算力多重门槛。真正实现通用智能机器人仍有较长路径要走,需在技术、数据体系和生态协同上持续积累。表:L1-L5五级智能化能力分级体系1.4 当前模型水平有限,距离真正泛化仍有较远距离维度能力等级核心能力描述P 感知认知能力​P1-P5单模态感知 → 多模态融合 → 场景理解 → 跨领域认知 → 自主知识构建D 决策学习能力D1-D5规则执行 → 简单推理 → 任务规划与学习 → 知识迁移 → 自我演进E 执行表现能力E1-E5基础运动 → 多任务协调 → 工具运用 → 复杂操作 → 类人灵活执行C 协作交互能力C1-C5单模态响应 → 多模态理解 → 情绪识别 → 个性化交豆 → 群体协同数据来源:中关村融智

立即下载
电子设备
2025-08-10
东吴证券
56页
7M
收藏
分享

[东吴证券]:机器人大模型行业深度报告:我们距离真正的具身智能大模型还有多远?,点击即可下载。报告格式为PDF,大小7M,页数56页,欢迎下载。

本报告共56页,只提供前10页预览,清晰完整版报告请下载后查看,喜欢就下载吧!
立即下载
本报告共56页,只提供前10页预览,清晰完整版报告请下载后查看,喜欢就下载吧!
立即下载
水滴研报所有报告均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。
相关图表
2025年公司拟发行可转债预案项目
电子设备
2025-08-08
来源:电子行业专题:AI填料,看好材料升级机遇
查看原文
图 联瑞新材 2024年主营业务收入结构
电子设备
2025-08-08
来源:电子行业专题:AI填料,看好材料升级机遇
查看原文
图 2024-2025年服务器规模及AI服务器占比
电子设备
2025-08-08
来源:电子行业专题:AI填料,看好材料升级机遇
查看原文
图65 2025Q1 全球可穿戴腕带设备市场 TOP5 厂商出货量及增长率
电子设备
2025-08-08
来源:半导体行业7月份月报:北美云厂商资本开支持续上行,关注AI驱动与国产替代共振下的投资机遇
查看原文
图64 2024 年全球可穿戴腕式设备同比增长 4.1%
电子设备
2025-08-08
来源:半导体行业7月份月报:北美云厂商资本开支持续上行,关注AI驱动与国产替代共振下的投资机遇
查看原文
图62 2025Q1 全球 TWS 耳机 TOP5 品牌份额 图63 2025Q1 中国 TWS 耳机 TOP5 品牌份额
电子设备
2025-08-08
来源:半导体行业7月份月报:北美云厂商资本开支持续上行,关注AI驱动与国产替代共振下的投资机遇
查看原文
回顶部
报告群
公众号
小程序
在线客服
收起