4D自动驾驶场景生成-南开大学

WorldSplat: Gaussian-Centric Feed-Forward 4D Scene Generation for Autonomous Driving朱子悦小米汽车世界模型—南开大学任务定义:自动驾驶模拟世界手段-视频生成vs场景重建• 世界模型-视频生成: 根据结构控制条件和文本提示生成自动驾驶视频• 世界模型-自动驾驶场景重建:使用三维表征表示场景,可以用来合成新视角,进行闭环仿真等优势与困境-生成• 世界模型-视频生成: 借助Wan2.1等强大的Diffusion架构,已经可以生成高度真实的视频控制条件生成视频优势与困境-生成• 世界模型-视频生成: 随着这两年视频生成的飞速进步,自驾视频生成质量大幅提升MagicDrive (2023)WorldSplat优势与困境-生成• 现在的视频生成框架缺少空间记忆,每生成新的视频,前景物体和背景都不一致原始视角模拟自车变道• 闭环仿真需要场景的可复现性• 可能出现车辆出发再返回原点,场景不一致的问题视频生成闭环仿真平台:DriveArena• Traffic Manager:负责交通流、其他车辆行为、路网车• World Dreamer:条件视频生成模型• 闭环流程:驾驶代理基于 World Dreamer 生成的图像输出轨迹 → 轨迹输入到 Traffic Manager 使交通流更新 → 新的布局再反馈给 World Dreamer → 如此循环。此即闭环交互。• 缺陷:“the model should be able to generate the same scene captured from different positions”优势与困境-重建• 世界模型-场景重建: 基于3D/4D Gaussians表征,可以准确重建出场景结构• 然而在新视角合成时仍然有模糊的现象,无法像Diffusion生成的清晰保真模拟自车向右变道2m模拟自车向左变道2m优势与困境-逐场景重建vs前馈重建• 自驾场景下观测视角稀疏,传统逐场景拟合的3D Gaussians 方案难以还原3D场景逐场景优化方案Omnire我们的前馈方案• 前馈重建方案通过数据和模型的scaling law,根据稀疏视角“预测” 3D场景世界模型设计思路• 动机:以Gaussians为核心生成重建统一的世界模型不同于视频生成,我们生成表示空间的4D Gaussians表征,同时不需要像传统Gs方法的逐场景优化借助diffusion的生成能力,生成多视角一致的视频世界模型设计思路• 双阶段以高斯为核心的新视角视频生成一阶段生成4D的高斯表征,表示空间并进行新视角视频渲染二阶段优化渲染视频,提升最终视频质量GaussiansDiffusion4D GaussiansConditionsEnhancedDiffusionrenderHigh Fidelity VideoLow Reso Video提出的世界模型框架• 以Gaussians为核心的世界模型框架:采用四维感知扩散模型生成包含RGB、深度和动态信息的多模态潜在表示使用我们的前馈潜在表示解码器,从去噪潜在表示中预测像素对齐的三维高斯球将三维高斯进行动静态分解,聚合形成四维高斯,并根据模拟轨迹渲染新视角视频使用增强型扩散模型提高渲染视频的空间分辨率和时间一致性提出的世界模型框架细节• 基于ControlNet增强的Diffusion transformerGaussians生成与Diffusion优化渲染结果• 二阶段diffusion可以弥补Gaussians渲染新视角的天然缺陷:渲染新视角时原本不可见区域的“坏面”问题自车高速运动下的场景模糊• 前馈4D Gaussians生成视频生成效果对比-量化指标• 对比最新的世界模型-视频生成的方法以FID和FVD为指标评测生成的质量支持不同生成模式,有首帧图像输入和无图像输入视频生成效果对比-视觉效果• 对比最新的世界模型-视频生成的方法视频生成效果对比-视觉效果• 模拟阴雨天气的真实物理环境:模拟潮湿路面的车灯反射生成视频真实视频视频生成效果对比-视觉效果• 模拟阴雨天气的真实物理环境:玻璃可以反射出自身车辆生成视频真实视频视频生成效果对比-视觉效果• 模拟复杂交通流环境:密集行人、车辆、车辆拐弯行驶真实视频生成视频新视角生成效果对比-量化指标• 对比最新的自动驾驶场景重建方法模拟自车向左和向右水平位移1~4m比较生成视频和原始轨迹视频,评测FID、FVD新视角生成效果对比-视觉效果• 对比最新的自动驾驶场景重建方法新轨迹生成效果• 将自车分别向左右平移1m、2m,我们能实现不同视角的场景一致性视频展示• 上下两段视频分别模拟将自车分别向左和右平移2m视频展示• 上下两段视频分别模拟将自车分别向左和右平移2m消融实验与下游应用• 对提出策略的消融实验• 对下游感知带来的提升未来工作• 相关代码的整理与开源• 轻量化整体的生成框架• 在闭环仿真任务上测评我们模型带来的提升效果欢迎关注我们的工作自动驾驶世界模型学习路线—视频生成篇• 非常有用的GitHub网站:https://github.com/LMD0311/Awesome-World-Model汇集了最新的一系列工作• 开源的长时序,高分辨率视频生成方案:MagicDrive-V2: High-Resolution Long Video Generation for Autonomous Driving with Adaptive Control• 基座生成模型:Cosmos World Foundation Model Platform for Physical AI自动驾驶世界模型学习路线—视频生成篇(我们团队的工作)• 联合生成多视图视频和 LiDAR 点云的统一框架(NeurIPS 2025):Genesis: Multimodal Driving Scene Generation with Spatio-Temporal and Cross-Modal Consistency• 先生成视频,以生成视频作为引导合成与视频一致的点云自动驾驶世界模型学习路线—视频生成篇(我们团队的工作)• 可编辑生成模型:Rethinking Driving World Model as Synthetic Data Generator for Perception Tasks,通过3D资产编辑,实现对目标位姿、轨迹和外观的精准控制,生成驾驶视频。• 仅用420个合成样本(<2%真实数据量),就能超越纯真实数据训练的模型自动驾驶世界模型学习路线—前馈重建篇• 推荐关注最近很火的一些前馈重建模型,比如VGGT, CUT3R, StreamVGGT, Pi3, HunyuanWorld-Mirror,Depth Anything 3等• Nuscenes场景前馈式3D重建:Omni-Scene: Omni-Gaussian Representation for Ego-Centric Sparse-View Scene Reconstruction,代码训练简洁适合入门• 前馈式动态场

立即下载
综合
2025-12-12
30页
8.38M
收藏
分享

4D自动驾驶场景生成-南开大学,点击即可下载。报告格式为PDF,大小8.38M,页数30页,欢迎下载。

本报告共30页,只提供前10页预览,清晰完整版报告请下载后查看,喜欢就下载吧!
立即下载
本报告共30页,只提供前10页预览,清晰完整版报告请下载后查看,喜欢就下载吧!
立即下载
水滴研报所有报告均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。
相关图表
AI 制药产业链图谱
综合
2025-12-12
来源:AI制药系列1:创新切入,赛道几何看全球AI制药寻宝图
查看原文
AIDD BD 交易总金额 Top20(左表)与首付款 Top20 的项目(右表)
综合
2025-12-12
来源:AI制药系列1:创新切入,赛道几何看全球AI制药寻宝图
查看原文
近 8 年(2017-2025Q3)全球 AIDD 相关 BD 交易(百万美元)
综合
2025-12-12
来源:AI制药系列1:创新切入,赛道几何看全球AI制药寻宝图
查看原文
智云医疗 AI 路线图
综合
2025-12-12
来源:AI制药系列1:创新切入,赛道几何看全球AI制药寻宝图
查看原文
英矽智能端到端 AI 创新药研发全程示意图(以 TNIK 抑制剂为例)
综合
2025-12-12
来源:AI制药系列1:创新切入,赛道几何看全球AI制药寻宝图
查看原文
Isomorphic Labs 合作的 Alphafold3 平台
综合
2025-12-12
来源:AI制药系列1:创新切入,赛道几何看全球AI制药寻宝图
查看原文
回顶部
报告群
公众号
小程序
在线客服
收起