中国具身智能创投报告-量子位智库
自1950年艾伦·图灵首次提出具身智能(Embodied AI)的概念,直到进入21世纪,具身智能才在机器人领域进一步发展。近两年随着人工智能技术的进步,尤其是大模型的出现,人们开始看到具身智能实际应用的可能性,越来越多的企业开始布局和投身这一「人工智能的下一个浪潮」。今年以来,科技巨头们在具身智能领域的动作不断——谷歌发布了融合视觉、语言、动作的RT系列机器人模型的新成果RT-H,英伟达在GTC大会上推出了人形机器人通用基础模型Project GR00T,特斯拉擎天柱(Optimus)机器人从叠衣服、散步到进厂“打工”,就连OpenAI也宣布时隔四年重新组建机器人团队……除了顶流大厂之外,具身智能初创企业更是参与和推动这次浪潮的主角。遍观海内外,近年来不断有顶级院校和科技巨头AI/机器人实验室出身的专家创立或参与创立具身智能企业;不同企业具身智能机器人产品的动态相较以往更密集地向公众传递;具身智能初创公司融资状态火热,明星创企单轮融资额破亿屡见不鲜,整体估值水涨船高。在《中国具身智能创投报告》中,量子位智库对具身智能的背景现状、技术原理与路线、国内创业格局、融资梳理及代表创企、创业者背景等方面进行了系统介绍,希望为科技从业者和爱好者们描绘出国内具身智能创业的澎湃蓝图。010203040501具身智能定义根据中国计算机协会的定义,「具身智能(Embodied AI)」是一种基于物理身体进行感知和行动的智能系统,它通过智能体与环境的交互获取信息、理解问题、做出决策并实现行动,从而产生智能行为和适应性。本篇报告研究的「具身智能」以通用智能机器人载体为主,不包含无人车等物理形态。普通机器人具身智能机器人自主性按预设程序执行任务可自主完成任务感知能力只有基本的感知能力具备高级的感知系统,如视觉、听觉、触觉等交互能力依赖于编程指令或外部控制与环境和人类进行复杂交互学习能力依靠人工进行编程或更新可实现自我进化和适应性学习适应能力只能在预设的参数或条件下工作可在变化的环境中自主调整行为应用场景适用于结构化环境和重复性任务可用于未知环境和复杂任务具身智能机器人与普通机器人的区别主要集中在自主性、感知与交互能力、学习与适应能力、应用场景等方面。具身智能火热现状 产业端——科技巨头布局具身智能生态 谷歌继去年推出首个控制机器人的视觉-语言-动作模型RT-2之后,于今年3月又推出RT系列的最新模型RT-H,在多个任务评估中相比RT-2平均提高了15%的成功率。 英伟达今年2月宣布成立GEAR(Generalist Embodied Agent Research)实验室,专注通用具身智能体研究;在3月的GTC大会上,英伟达发布人形机器人通用基础模型Project GR00T,以及专为人形机器人打造的新型计算平台Jetson Thor。 微软不仅和英伟达、OpenAI一起投资了具身智能明星创企Figure AI,今年5月还与仿人机器人公司Sanctuary AI达成合作,为其提供Azure云资源、加速具身AI研究。 OpenAI与Figure、1X Technologies 等公司合作开发机器人大模型,并将视觉语言模型加持在Figure 01人形机器人上;同时时隔四年重新组建了自己的机器人团队。 特斯拉持续发布擎天柱(Optimus)机器人的演示视频,展示其从叠衣服、散步到进厂分拣电池的最新进展。具身智能火热现状 学术端——高校机构研究具身智能系统 斯坦福大学李飞飞团队推出VoxPoser,基于环境信息和自然语言命令,通过大语言模型和视觉语言模型的交互,指导系统为机器人生成相应的操作指示地图。李飞飞教授今年也发起「空间智能」方向的创业项目,目标让AI像人类一样对视觉信息进行高级推理。 卡内基梅隆大学研发出OmniH2O(Omni Human-to-Humanoid)全身遥控系统,实现全尺寸人形机器人的实时全身远程操作,并用宇树科技的H1-ReS人形机器人做了效果演示。 北京大学推出一系列具身智能研究成果,包括具身导航系统DiscussNav、具身大模型ManipLLM、机器人多模态大模型RoboMamba等。 清华大学、中南大学研发出具身智能体开放平台LEGENT,利用所生成的数据训练视觉-语言-动作模型。 智源研究院在今年6月的智源大会上推出世界首个端到端基于视频的多模态具身大模型NaVid。具身智能火热原因:大模型及生成式AI的快速发展自1950年艾伦·图灵首次提出具身智能(Embodied AI)的概念,直到进入21世纪,具身智能才在机器人领域进一步发展。近两年随着人工智能技术的进步,尤其是大模型及生成式AI的发展,大众逐渐看到具身智能实际应用的可能性,而不仅仅将其看作象牙塔内的学术研究。英伟达CEO黄仁勋和斯坦福李飞飞教授等产业界和学术界的旗帜性人物纷纷为具身智能站台,越来越多的人相信具身智能将成为「人工智能的下一个浪潮」。大模型与机器人耦合,激发人们对AGI的想象对生成式AI而言,机器人是大模型能力的理想载体,是人工智能发展到一定阶段、从单纯数字领域的应用到与物理世界交互的必然途径。对通用机器人而言,大模型提供了更强大的“AGI大脑”,提升了机器人在感知、理解和规划任务上的泛化能力,也对人机交互产生颠覆性影响。02技术原理具身智能本质上是为以机器人为代表的物理实体注入人工智能,使其能感知、学习并与环境动态交互。能力拆解感知规划控制执行具身智能系统「大脑」,负责感知、理解和规划,主要通过大语言模型、视觉语言模型来驱动上层中层底层「小脑」,负责运动控制和动作生成,主要通过运动控制算法、反馈控制系统来实现「身体」,负责动作执行,由机器人本体(包含机械结构、传感器、执行器等)来支持图:Figure 01机器人技术路线具身智能的算法方案可分为分层决策模型和端到端模型两种路线。端到端模型分层决策模型以「Google RT-2」为代表,通过一个神经网络完成从任务目标输入到行为指令输出的全过程。首先在大规模互联网数据预训练视觉语言模型,然后在机器人任务上微调,结合机器人动作数据,推出视觉语言动作模型。RT-2不仅负责最上层的感知与规划,还参与中下层的控制与执行,打通了端到端的链路。端到端模型的缺点是:训练数据海量、消耗资源巨大、机器人执行实时性差。以「Figure 01」为代表,将任务分解成不同层级,以多个神经网络训练,再以流程管线的方式组合。Figure 01顶层接入OpenAI的多模态大模型,提供视觉推理和语言理解;中间层神经网络策略作为小脑进行运动控制并生成动作指令;底层机器人本体接受神经网络策略的动作指令,进行控制执行。分层决策模型的缺点是:不同步骤间的对齐和一致性需解决。图:RT-2模型闭环控制流程,来源https://robotics-transformer2.github.io/assets/rt2.pdf图:Figure 01线程,来源https://x.com/adcock_brett/status/1767913955295744449技术路线具身智能的训练方法可分为模仿学习和强化学习两种路线。模仿学习强化学习模仿学习——智能体通过观察和模仿专家(经验丰富的人类操作者
中国具身智能创投报告-量子位智库,点击即可下载。报告格式为PDF,大小8.08M,页数30页,欢迎下载。