汽车行业专题报告:辅助驾驶系列报告二,VLA和世界模型-通往高阶智能驾驶之路
汽车行业专题报告:VLA和世界模型-通往高阶智能驾驶之路——辅助驾驶系列报告二评级:推荐(维持)证券研究报告2025年09月12日汽车戴畅(证券分析师)陈飞宇(证券分析师)S0350523120004S0350525060001daic@ghzq.com.cnchenfy02@ghzq.com.cn请务必阅读报告附注中的风险提示和免责声明2相对沪深300表现表现1M3M12M汽车7.1%11.5%55.9%沪深3009.1%16.2%42.5%最近一年走势相关报告《汽车行业专题报告:辅助驾驶的AI进化论:站在能力代际跃升的历史转折点(推荐)*汽车*陈飞宇,戴畅》——2025-07-22《汽车行业周报:全新问界M7 24小时小订突破15万台,吉利汽车合并极氪获股东高票通过(推荐)*汽车*戴畅》——2025-09-09《汽车行业周报:2025成都车展开幕多家车企携新品参展,极氪9X开启预售(推荐)*汽车*戴畅》——2025-09-02《汽车行业周报:蔚来全新ES8、吉利银河M9开启预售,中大型智能SUV市场迎来重磅新品(推荐)*汽车*戴畅》——2025-08-25《汽车行业周报:新款问界M7将于9月上市,2025年7月乘用车批发销量同比增长14.7%(推荐)*汽车*戴畅》——2025-08-18-7%6%20%34%48%61%2024/09/112025/03/112025/09/11汽车沪深300请务必阅读报告附注中的风险提示和免责声明3本篇报告解决了以下核心问题:1、VLA和世界模型是什么及特点?2、目前辅助驾驶产业玩家的路径差异性?3、 辅助驾驶能力提升过程中的技术趋势和核心关注点是什么?一、VLA模型(Vision-Language-Action)u定义:VLA是一种端到端多模态人工智能架构,通过融合视觉输入(图像/视频)和自然语言指令,直接生成可执行的物理动作,实现从感知、理解到控制的闭环。u特点:多模态融合-结合视觉语义与语言指令,增强场景理解与交互能力;语义推理与泛化-支持复杂场景的语义推理和长尾问题处理。u产业玩家:理想汽车-自研Mind VLA模型,具备空间理解、思维、沟通与记忆、行为能力四大功能,基于Thor-U/Orin-X平台量产部署,支持语言控制驾驶,于2025年9月OTA全量推送至AD MAX车主;小鹏汽车:采用“VLA+OL”云端基模,通过蒸馏技术部署车端轻量化XVLA模型,于2025年9月OTA推送至G7 Ultra;元戎启行-DeepRoute IO 2.0于2025年8月发布,搭载自研的VLA模型,已达成5个定点,首批量产车将进入市场。二、世界模型(World Model)u定义:以视觉与运动数据为基础,通过生成式建模预测环境动态与行为后果,强化辅助驾驶系统在仿真和交互中的可靠性。u特点:难例场景构建:通过生成式技术增强高密度 corner case 的覆盖;时空预测能力-对环境变化和车辆运动进行高精度预测。u产业玩家:华为-乾崑ADS 4.0采用WEWA架构,构建难例场景库,提升泛化能力;蔚来-NWM模型支持多模态输入输出与自然语言交互,强化场景理解与控制;Momenta-R6飞轮大模型采用双模型架构,融合长短期记忆与真实数据闭环。三、比较与结论:VLA与世界模型在技术上并非同级或对立关系。我们将发展路径分为两派,实质上是产业玩家在实现端到端能力之后,在能力优化侧重点上出现了分化。u通往高阶智驾的互补路径:VLA 侧重语义融合与交互控制,通过语言增强可解释性与用户协同;世界模型侧重环境预测与仿真可靠性,通过生成技术提升安全冗余。u技术融合趋势明显:双方均在向对方领域渗透:VLA 引入强化学习与仿真优化动作生成,世界模型扩展语言交互与多模态理解。u数据与安全为核心壁垒:数据飞轮效应成为竞争关键-头部车企凭借高活跃用户积累海量里程数据,通过RLHF驱动模型高效迭代;安全性能量化用户体验:当前第一梯队MPA(平均事故里程)已达人类驾驶安全水平的6倍以上,MPI(平均接管里程)持续优化。行业评级与投资建议:多模态VLA模型引入长序思维能力,世界模型提供仿真与强化训练环境,有效数据闭环+安全能力提升(MPA&MPI),共同构筑智能驾驶长期壁垒。考虑到L3辅助驾驶商用标准落地在即,多款L3级架构车型陆续上市,场景切割的阶段性功能实现,并向全场景覆盖的最终愿景发力,维持辅助驾驶行业“推荐”评级。智驾能力成为车企估值分化关键因素,短期关注数据规模大、算法迭代快的车企:理想汽车、小鹏汽车、蔚来汽车、鸿蒙智行合作车企,辅助驾驶解决方案供应商Momenta、元戎启行等。风险提示:辅助驾驶政策法规推进不及预期;数据安全与隐私保护监管趋严;车企销量与技术搭载不及预期;行业竞争加剧导致技术研发投入承压;技术可靠性与长尾场景安全问题导致的信任与合规风险。请务必阅读报告附注中的风险提示和免责声明4一、VLA模型:多模态融合驱动,重塑人车交互与决策控制请务必阅读报告附注中的风险提示和免责声明5公司 / 模型时间类型泛领域应用技术特征Google DeepMind - RT-22023.07VLA 模型、通过机器人控制模型通用机器人控制复杂任务泛化对 VLM 模型的简单而有效的修改,显示出改进的泛化能力以及数据的语义和视觉理解能力,可以推理、解决问题和解释信息,支持物体操作和任务执行。Google DeepMind - Gemini Robotics2025.03进化型 VLA高阶机器人操作基于 RT-2,增强 2D/3D 语义理解和机器人控制精度,支持复杂场景执行,面向下一代物理智能体。Vision-Language-Action(VLA)模型是一种融合视觉(Vision)、语言(Language)和动作(Action)三大模态的端到端人工智能模型。- 它通过统一的多模态学习框架,将感知、推理与控制一体化,直接根据视觉输入(如图像、视频)和语言指令(如任务描述)生成可执行的物理世界动作(如机器人关节运动、车辆转向控制)。- VLA概念形成于2021-2022年左右,由Google DeepMind的Robotic Transformer2 (RT-2)等项目开创。图、Google DeepMind - RT-2:获取机器人相机图像并直接预测机器人要执行的动作图、Google DeepMind - Gemini Robotics:擅长具身推理能力,包括检测物体和指向物体部件、查找相应点和检测 3D 物体资料来源:《Vision-Language-Action Models: Concepts, Progress, Applications and Challenges》Ranjan Sapkota等、佐思汽车研究、 GoogleDeepMind、澎湃新闻、国海证券研究所 表、Google DeepMind 模型演变请务必阅读报告附注中的风险提示和免责声明6公司 / 模型时间类型泛领域应用技术特征WAYVE - LINGO-12023.09开环驾驶模型1.自动驾驶感知解释2.驾驶行为可解释性利用视觉语言输入来执行视觉问答 (VQA) 并驱动评论描述场景理解、推理和注意力等任务——仅提供语言
[国海证券]:汽车行业专题报告:辅助驾驶系列报告二,VLA和世界模型-通往高阶智能驾驶之路,点击即可下载。报告格式为PDF,大小4.08M,页数32页,欢迎下载。
