计算机行业点评:RT-2,从VLM到VLA,机器人软件体系再次进步
请仔细阅读本报告末页声明 证券研究报告 | 行业点评 2023 年 08 月 02 日 计算机 RT-2:从 VLM 到 VLA,机器人软件体系再次进步 RT-2 面世,VLA 模型将视觉-语言转化为机器人动作。近期 Google DeepMind 发布 Robotic Transformer 2(RT-2),是一种新颖的视觉-语言-动作(VLA)模型。RT-2建立在 Robotic Transformer 1(RT-1)的基础上,这是一个经过多任务演示训练的模型,它可以学习机器人数据中看到的任务和对象的组合。RT-2 以视觉语言模型(VLM)为基础,VLM 已接受网络规模数据的训练,以执行视觉问答、图像字幕或对象识别等任务,RT-2 采用 PaLI-X 和 PaLM-E 作为支柱,将一个或多个图像作为输入,并生成一系列通常代表自然语言文本的标记。RT-2 通过将机器人动作表示为模型输出中的 token(类似于语言 token)来制机器人,并将操作描述为可以由标准自然语言标记生成器处理的字符串。与之前的基线(例如之前的 RT-1 模型和 VC-1 等模型)相比,RT-2 的泛化性能大幅提高。Google DeepMind 对机器人没看见过的物体、背景和环境进行不同程度的评估,这需要机器人从 VLM 预训练中学习泛化,RT-2 保留了机器人数据中看到的原始任务的性能,并提高了机器人在以前看不见的场景中的性能,从 RT-1 的 32%提高到 62%,显示了大规模预训练的巨大优势。受到大语言模型中使用的思维链提示方法的启发,Google DeepMind 还将机器人控制与思维链推理相结合,以便能够在单个模型中学习长期规划和低级技能。 从 VLM 到 VLA,RT-2 进一步验证了“ViT+类 GPT+机械”的机器人方案。从VLM 到 VLA,主要进展在于将机器人动作直接作为模型 token 输出,省去了 VLM模型将输出的指令翻译成动作控制信号的步骤。 ViT 模型将语言模型的transformer 架构用于视觉模型,代替了传统的 CNN,统一了 CV 和 NLP 的架构。2022 年 9 月,Google 推出了 PaLI,一个统一的语言图像模型,编码器的输入部分使用了 ViT。2023 年 3 月 Google 推出有 5620 亿参数的 PaLM-E 模型,将 540B PaLM 和 ViT-22B 结合。在 RT-1 中,模型省略了将输出的指令转化为动作控制信号的步骤,直接把直接把动作当 token 输出。RT-2 结合了 PaLI-X 和 PaLM-E,针对机器人和网络数据共同微调预先训练的 VLM 模型。生成的模型接收机器人摄像头图像并直接预测机器人要执行的动作。通过基于 PaLM-E 和 PaLI-X 的 VLA 的两个实例化,RT-2 带来了高度改进的机器人策略,更重要的是通过视觉语言的预训练带来了显著更好的泛化性能。RT-2 不仅是对现有 VLM 模型的简单而有效的修改,还展示了构建通用物理机器人的前景,让机器人可以推理、解决问题和解释信息,以在现实中执行各种任务。 多模态 GPT 助力机器人软件技术进步,加速机器人产业进展。从 PaLM-E 到以RT-2 为代表的机器人软件模型算法不断提升,有望加速提升通用机器人与行业机器人的迭代速度,带动下游需求的产生,并实现包扩软件算法、机械组件、机器人整机等在内的产业链共振。行业机器人的实现难度相对通用机器人更低,而多模态 GPT 的发展是通往行业机器人的钥匙。多模态 GPT 助力机器人在交互能力、规划控制能力、泛化能力、感知能力等多方面得到极大提升。我们认为,从下半年开始的 1~5 年内,随着 GPT 的发展带来 AI 泛化能力提升,通用视觉、通用机械臂、通用物流搬运机器人、行业服务机器人、真正的智能家居会进入生活。在5-10 年内,结合复杂多模态方案的大模型有望具备完备的与世界交互的能力,在通用机器人、虚拟现实等领域得到应用。 建议关注:1)算法及行业机器人潜力公司:大华股份、海康威视、千方科技、中科创达、云从科技、中科信息、亿嘉和、萤石网络、商汤科技等。2)硬件供应商:三花智控、拓普集团、鸣志电器、绿的谐波、峰岹科技、双环传动、中大力德、国茂股份等。 风险提示:机器人技术迭代不及预期风险;经济下行超预期风险;行业竞争加剧风险。 增持(维持) 行业走势 作者 分析师 刘高畅 执业证书编号:S0680518090001 邮箱:liugaochang@gszq.com 相关研究 1、《计算机:政策再次强化金融 AI》2023-07-30 2、《计算机:科技巨头资本开支一览》2023-07-30 3、《计算机:智能助理:解耦式的生态正在形成》2023-07-23 -32%-16%0%16%32%48%64%2022-082022-112023-032023-07计算机沪深300 2023 年 08 月 02 日 P.2 请仔细阅读本报告末页声明 内容目录 一、 RT-2 面世,VLA 模型将视觉-语言转化为机器人动作 ......................................................................................... 3 二、从 VLM 到 VLA,RT-2 进一步验证了“ViT+GPT+机械”的机器人方案 ................................................................. 6 三、多模态 GPT 助力机器人软件技术进步,加速机器人产业进展 .............................................................................. 9 三、投资建议 ....................................................................................................................................................... 10 风险提示 .............................................................................................................................................................. 12 图表目录 图表 1:RT-2 训练中使用的动作字符串的表示形式,这种字符串的示例可以是机器人动作标记编号的序列 ................... 3 图表 2:机器人数据中不存在的新兴机器人技能示例,需要通过网络预训练进行知识转移 ........................................... 4 图表 3:机器人以前未
[国盛证券]:计算机行业点评:RT-2,从VLM到VLA,机器人软件体系再次进步,点击即可下载。报告格式为PDF,大小1.57M,页数13页,欢迎下载。
