CES 2025动态跟踪系列(二):机器人:NVIDIA Cosmos有望加速人形机器人开发训练
CES 2025 动态跟踪系列(二) 机器人:NVIDIA Cosmos 有望加速人形机器人开发训练 行业动态跟踪报告 请通过合法途径获取本公司研究报告,如经由未经许可的渠道获得研究报告,请慎重使用并注意阅读研究报告尾页的声明内容。 行业报告 电子 2025 年 01 月 13 日 强于大市(维持) 行情走势图 证券分析师 徐碧云 投资咨询资格编号 S1060523070002 XUBIYUN372@pingan.com.cn 徐勇 投资咨询资格编号 S1060519090004 XUYONG318@pingan.com.cn 付强 投资咨询资格编号 S1060520070001 FUQIANG021@pingan.com.cn 事项: 当地时间 1 月 7 日-10 日,多家国内外公司携机器人产品在美国拉斯维加斯亮相 CES2025 大会。 平安观点: 用于合成数据的 Isaac GR00T 工作流以及 NVIDIA Cosmos 世界基础模型,为通用人形机器人的开发注入强大动力。在 CES2025 大会上,黄仁勋宣布 NVIDIA 推出第一批 Cosmos 世界基础模型,用于基于物理的仿真和合成数据生成,配备先进的 tokenizer、护栏、加速数据处理和管理工作流,以及模型定制和优化框架。机器人公司 1X、Agility Robotics 和小鹏汽车已经在与 Cosmos 协作,加速并增强模型开发。同时,NVIDIA 正式推出用于合成运动生成的 Isaac GR00T Blueprint,可帮助开发者生成海量的合成运动数据,以便通过模仿学习来训练人形机器人。 国产人型机器人本体厂与英伟达合作,激光雷达厂商亦入局机器人。黄仁勋演讲时同台亮相的 14 台人形机器人中有近半数来自中国。它们分别是星动纪元、智元机器人、傅利叶智能、银河通用、宇树科技、小鹏。作为黄仁勋演讲全场唯一的轮式人形机器人,银河通用的 Galbot 机器人可提供真实环境下的零售服务,观众通过 iPad 模拟下单,即可体验机器人在便利店中取货、送货的便捷服务。此外,激光雷达厂商速腾聚创、禾赛科技均转向机器人赛道。速腾聚创面向机器人的创新增量零部件系列技术成果同步出展 CES,人形机器人也初次公开亮相。 机器人大语言模型市场规模预估于 2028 年破千亿美元,英伟达 WFM 平台或成主要驱动力。NVIDIA 在 CES 2025 上推出的内含生成世界基础模型的 Cosmos 平台可望成为人型机器人 LLM 重要的市场动能。根据TrendForce,随着人型机器人迈向高度系统整合,并有望从工业场景走进家庭生活,前端的 AI 模型训练将更为关键,以满足更多后端理解与互动需求,预估全球机器人大型语言模型,有望于 2028 年超越 1000 亿美元。 投资建议:NVIDIA 的 Cosmos 平台利用真实世界数据与 AI 生成资料建构训练用的数字孪生环境,从而达到降低成本、简化流程和定制化训练的效益,并实现与真实环境更相近的互动模拟,有望进一步解决人型机器人训练落差困境,往实际商用与日常部署迈出重要一步。未来随着技术的继续升级、产业链成本端降低以及新型应用场景的不断拓展,智能服务机器人渗透率有望快速提升,人型机器人也有望早日商业化落地,国内上游核心零部件企业也在积极布局,建议关注产业链上游相关零部件及材料,建议关注三花智控、绿的谐波、中大力德、兆威机电、鸣志电气、贝斯特、柯力传感等。 风险提示:1)人工智能技术发展不及预期。2)行业竞争加剧风险。3)技术迭代不及预期。 证券研究报告 请通过合法途径获取本公司研究报告,如经由未经许可的渠道获得研究报告,请慎重使用并注意阅读研究报告尾页的声明内容。 电子·行业动态跟踪报告 2/ 9 一、 用于合成数据的 Isaac GR00T 工作流以及 NVIDIA Cosmos 世界基础模型,为通用人形机器人的开发注入强大动力 1.1NVIDIA 推出加速物理 AI 开发的 Cosmos世界基础模型平台 在 CES2025大会上,NVIDIA 推出第一批 Cosmos世界基础模型,用于基于物理的仿真和合成数据生成,配备先进的 tokenizer、护栏、加速数据处理和管理工作流,以及模型定制和优化框架。 黄仁勋表示机器人如果要在现实世界中执行任务,仅依靠像 ChatGPT 这类语言模型远不够,因为训练机器人需要的是能够理解物理世界与物理规律的基础模型,而这需要海量且高质量的物理数据。基础类模型使用包括文本、图像、视频和运动在内的输入数据来生成和仿真虚拟世界,以准确模拟场景中物体的空间关系及其物理交互。 Cosmos 世界基础模型是一套用于物理感知视频生成的开放式扩散和自回归 Transformer 模型,已基于 2000 万小时的真实世界人类互动、环境、工业、机器人和驾驶数据,训练了 9000 万亿个 token。扩散或自回归模型版本的参数量在 40 亿到140 亿之间,还提供用于总结文本提示的参数量级达 120 亿的上采样模型、针对增强现实优化 70 亿参数级视频解码器、以及确保负责任和安全使用的护栏模型。 该类模型分为三类:Nano,用于针对实时、低延迟推理和边缘部署进行优化的模型;Super,用于高性能基线模型;Ultra,具有高质量和保真度,适合用于蒸馏自定义模型。 Cosmos 世界基础模型可以实现合成数据生成,以增强训练数据集,在物理 AI 模型部署到现实世界之前进行仿真测试和调试,以及在虚拟环境中进行强化学习以加速 AI 智能体学习。 除了帮助生成大型数据集外,Cosmos 还能通过将图像从 3D 扩展到真实场景,缩小仿真与现实之间的差距。将 Omniverse与 Cosmos 相结合,可通过其高度可控、物理精确的仿真提供关键保障,有助于最大限度地减少世界模型常见的幻觉问题。开发者可以通过使用 Omniverse 组合的 3D 场景来调节 Cosmos,从而生成大量可控的基于物理学的合成数据。配合Omniverse 3D 输出时,扩散模型生成可控的高质量合成视频数据,用于启动机器人和自动驾驶汽车感知模型的训练。自回归模型基于输入帧和文本,预测视频帧序列中的下一步动态。可实现实时下一个 token 预测,让物理 AI 模型预测他们的下一个最佳行动。 Cosmos 可以预测和生成虚拟环境未来状态的物理感知视频的神经网络,以帮助开发者构建新一代机器人和自动驾驶汽车。在机器人开发中,世界基础模型可以生成合成虚拟环境或世界,为机器人学习提供更具性价比、更高效和更受控的空间。开发者可以直接使用 Cosmos 模型生成基于物理学的合成数据,或利用 NVIDIA NeMo框架,根据自己的视频对模型进行微调,以实现特定物理 AI 设置。机器人公司 1X、Agility Robotics 和小鹏汽车已经在与 Cosmos 协作,加速并增强模型开发。 图表1 Cosmos可以将图像和文本转换为人形机器人的可操作任务 资料来源:英伟达公众号,平安证券研究所 请通过合法途径获取本公司研究报告,如经由未经许可的渠道获得研究报告,请慎重
[平安证券]:CES 2025动态跟踪系列(二):机器人:NVIDIA Cosmos有望加速人形机器人开发训练,点击即可下载。报告格式为PDF,大小1.36M,页数9页,欢迎下载。
