汽车行业:从Sora看基于多模态大模型的智能驾驶新范式

请务必阅读正文之后的信息披露和重要声明 行业 研 究 行业跟踪 报告 证券研究报告 #industryId# 汽车行业 #investSuggestion# 推荐 ( #investSuggestionChange# 维持 ) #relatedReport# 相关报告 《智能驾驶系列深度之六:AI加持+城市 NOA 落地,高阶智能化迎来蝶变时刻》2023-07-18 《电动智能的征程系列 4:平价高阶智能化,下一个车企竞争的胜负手》2023-06-06 #emailAuthor# 分析师: 董晓彬 dongxiaobin@xyzq.com.cn S0190520080001 投资要点 #summary# ⚫ Sora 在工程上证明了 Transformer 做多模态大模型的能力。2024 年 2 月 16 日,OpenAI 推出文生视频模型 Sora。相比于过去的文生视频模型,Sora 的优势主要有三点:(1)视频时长显著提升。(2)可以处理不同分辨率和纵横比的视频。(3)Sora 展示了对自然语言(语义语法)和物理世界规律更强的理解能力。Sora 本质上是基于Transformer+Diffusion 模型,在工程上证明了 Transformer 做多模态大模型的能力。1)Transformer 是目前国内外车企做智能驾驶主流的架构,自 2021 年特斯拉 AI DAY上 展 示 了 基 于 Transformer 的 BEV 感 知 方 案 后 , 国 内 外 主 流 车 企 都 用BEV+Transformer 将各个摄像头的信息进行特征提取和融合,进一步实现多任务输出,如静态语义地图、动态检测等。2)Diffusion 的功能主要是生成图像和视频信息,目前国内外智驾车企不用 Diffusion 做视觉场景构建,有论文提出可以用Diffusion 做智能驾驶模型或驾驶虚拟仿真,目前离产业化落地尚有距离。我们认为Sora 最大意义是证明了基于 Transformer 做多模态大模型的能力。 ⚫ 多模态大模型或是 L4 级别高阶智能驾驶的新范式,OpenAI 投资基于多模态大模型的自动驾驶。目前智驾模型是多个单任务 AI 模型的叠加,长尾效应导致众多 corner case 需要持续解决。而多模态大模型在数据,感知和规划层面都更加简洁有效。(1)在数据层面,现有模型首先要大规模采集数据,再用模型进行数据挖掘和标注,而多模态大模型不需要专门的智能驾驶数据标注,而是通过语言接口对复杂问题进行zero-shot 泛化,相对而言可能成本更低,同时可以处理未训练的任务。(2)在感知层面,现有模型在感知模块的任务是特征识别和输出,多模态大模型不需要对物体进行识别和分类,仅仅考虑物理层面的光线距离等的物理信息,还有和历史训练视频中车辆和这个物体的关系。(3)在规划层面,现有模型代码库非常庞大,需要手动调试来适应复杂任务。多模态大模型可以把已有的理解的能力直接扩展到驾驶任务,使模型无需显式训练,就能安全自然地驾驭复杂场景,所以可以解决没有见过的场景,即处理“长尾问题”。2023 年 11 月 8 日,OpenAI 投资 Ghost Autonmy 500 万美元,希望将多模态的大语言模型(MLLMs)引入自动驾驶。从经济性角度,多模态大模型也适合智能驾驶。 ⚫ 智能驾驶的终局可能是基于通用大模型 World Model 的微调。World Model 可以理解为世界动态的演化模型,当自动驾驶从世界感知走向通用认知后,智能驾驶的终局可能是基于 World Model 通用大模型的微调。通过大模型的预训练去学会推理、记忆等能力和道路驾驶等通用知识,再强化场景驾驶行为,把数据闭环变成奖励模型。简单来讲就是,现在的思路是通过采集的数据集训练出一个“司机”,然后教他应对各种特殊场景。通用大模型的思路是先训练出一个“人”,然后教会他开车。我们从Sora 和特斯拉 2023 年 CVPR 发布的视频看到了构建基础大模型解决智能驾驶场景的可能性,从目前披露的信息看 Sora 和特斯拉 World Model 共性有三点:(1)都通过输入海量的视频进行训练。(2)都可以保持对象在不同视角下的一致性。(3)都展示了一定的理解和预测能力,基于过去的视频推测未来的三维场景变化。 ⚫ 投资建议:基于多模态大模型的新范式有望大幅提升智能驾驶能力,中长期看好高阶智能化的产业机会。整车方面,建议关注华为合作车企北汽蓝谷、长安汽车、赛力斯,建议关注小鹏汽车(港股团队覆盖)、理想汽车(港服团队覆盖);零部件方面,建议关注受益高端智能化的伯特利(线控制动放量)、科博达(车身与底盘域控放量)、德赛西威(座舱与智驾域控放量)、经纬恒润(智能驾驶产品布局丰富)、均胜电子(座舱域放量)、保隆科技(ADAS 相关业务拓展)。 ⚫ 风险提示:智驾技术落地不及预期,高阶智能化安全事故,智能化降本不及预期 #title# 从 Sora 看基于多模态大模型的智能驾驶新范式 #createTime1# 2024 年 02 月 29 日 请务必阅读正文之后的信息披露和重要声明 - 2 - 行业跟踪报告 报告正文 一、Sora 横空出世,多模态大模型工程化落地再进一步 2024 年 2 月 16 日,OpenAI 推出文生视频模型 Sora。相比于过去的文生视频模型,Sora的优势主要有三点:(1)视频时长显著提升,过去 DALL`E等模型只能生成 10 秒以内的视频,Sora 最多可以生成 60 秒的视频,同时在一致性和清晰度等方面有更好的表现。(2)Sora 可以处理不同分辨率和纵横比的视频,而过去的模型对视频格式有固定的要求。(3)Sora 展示了对自然语言(语义语法)和物理世界规律更强的理解能力,比如 Sora 生成的视频中汽车行驶会扬起尘土。 图 1、Sora 官方介绍 图 2、Sora 生成的视频截图 资料来源:OpenAI 官网,兴业证券经济与金融研究院整理 资料来源:OpenAI 官网,兴业证券经济与金融研究院整理 Sora 的核心模块是 DiT(Diffusion Transformer)架构,通过海量的视频训练将DiT 工程化落地。DiT(Diffusion Transformer)模型是 2022 年底 William Peebles和 Sain Xie 《Scalable Diffusion Models with Transformers》提出的神经网络架构,是传统的 Diffusion 扩散模型和 Transformer 架构的结合。传统扩散模型的处理过程是给定输入噪声 patches(类似打马赛克),训练模型来预测噪声(类似去掉马赛克),训练的过程就是依靠 U-Net 模块去估计噪声函数,DiT 做的事情就是用Transformer 替代 U-Net 模块。 图 3、传统 diffusion 模型示意图 资料来源:CSDN,兴业证券经济

立即下载
汽车
2024-03-01
兴业证券
9页
2.03M
收藏
分享

[兴业证券]:汽车行业:从Sora看基于多模态大模型的智能驾驶新范式,点击即可下载。报告格式为PDF,大小2.03M,页数9页,欢迎下载。

本报告共9页,只提供前10页预览,清晰完整版报告请下载后查看,喜欢就下载吧!
立即下载
本报告共9页,只提供前10页预览,清晰完整版报告请下载后查看,喜欢就下载吧!
立即下载
水滴研报所有报告均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。
相关图表
汽车行业重点公司估值表
汽车
2024-03-01
来源:汽车行业一周一刻钟,大事快评(W045):汽车观点更新;个股动态更新(松原股份,爱柯迪,途虎)
查看原文
图表 80: 特斯拉人形机器人产业链梳理
汽车
2024-03-01
来源:特斯拉(TSLA.US)全球电动车领导者,科技创新引领未来增长
查看原文
图表 78: 特斯拉的 FSD 的标志性节点
汽车
2024-03-01
来源:特斯拉(TSLA.US)全球电动车领导者,科技创新引领未来增长
查看原文
图表 77: FSD 上路测试图
汽车
2024-03-01
来源:特斯拉(TSLA.US)全球电动车领导者,科技创新引领未来增长
查看原文
图表 76: FSD 架构
汽车
2024-03-01
来源:特斯拉(TSLA.US)全球电动车领导者,科技创新引领未来增长
查看原文
图表 75: 特斯拉自动驾驶方案软件产品方案对比
汽车
2024-03-01
来源:特斯拉(TSLA.US)全球电动车领导者,科技创新引领未来增长
查看原文
回顶部
报告群
公众号
小程序
在线客服
收起