电子：世界模型探索空间智能，AI复杂场景落地可期

世界模型探索空间智能，AI 复杂场景落地可期 [Table_ReportDate] 2025 年 3 月 5 日请阅读最后一页免责声明及信息披露 http://www.cindasc.com 2 证券研究报告行业研究 [Table_ReportType] 行业专题研究（普通） [Table_StockAndRank] 电子投资评级看好上次评级看好 [Table_Author] [Table_Author] 莫文宇电子行业首席分析师执业编号：S1500522090001 邮箱：mowenyu@cindasc.com 杨宇轩电子行业分析师执业编号：S1500525010001 邮箱：yangyuxuan@cindasc.com [Table_Title] 世界模型探索空间智能，AI 复杂场景落地可期 [Table_ReportDate] 2025 年 3 月 5 日本期内容提要: [Table_Summary] [Table_Summary] ➢ 世界模型研究进展迅速，应用端机遇与挑战并存。长期以来，科学界一直渴望开发一个统一的模型，该模型可以复制其世界的基本动态，以追求通用人工智能（AGI）。世界模型尚无统一的定义，英伟达官网的定义为：“世界模型是理解现实世界动态 (包括其物理和空间属性) 的生成式 AI 模型。它们使用文本、图像、视频和运动等输入数据来生成视频。通过学习，它们能够理解现实世界环境的物理特性，从而对运动、应力以及感官数据中的空间关系等动态进行表示和预测。” Sora发布之后，世界模型获得了更为广泛的关注。从功能方面看，在许多用例中，Sora 确实具备一定的理解和预测世界的能力，且其生成的视频在大部分时候也能有良好的一致性。但也有人认为 Sora 仅是像素层面的生成，这会导致一些无法解释的现象，这表明 Sora 并未理解物理世界。从技术架构看，Sora 是一种基于扩散的视频生成模型。但是无论如何，Sora 的结果表明，扩展视频生成模型是构建物理世界通用模拟器的一条有前景的途径。应用层面看，随着视觉生成模型和多模态大模型的进展，世界模型在自动驾驶领域受到了广泛的关注。使用基于扩散的视频生成模型作为世界模型可以部分解决信息丢失和建模效率低下的问题，近年来已有相关的研究在不断进行。机器人领域的应用也是主要方向之一，世界模型让机器人在现实中处理通用任务展示出巨大前景。传统的机器人关键组件会被建模，机器人在执行任务时无需理解世界。而当机器人被部署在新的场景中时，机器人可能会手足无措，因此，世界模型对物理世界的理解和预测能力是机器人智能化的关键利器，LLMs 和世界模型被认为是实现通用人工智能（AGI）的可能途径之一，它们可以成为机器理解世界基本规律的起点。目前AI 发展迅速，大模型正快速学习如何理解物理世界，世界模型也有望迎来快速迭代时期。在近期发布的大模型中，o3-mini 可以模拟生成一个小球在四维超立方体内弹射的 Python 代码。而 Grok3 则可以模拟航天器任务，生成的 3D 动画准确描述了飞船、地球、太阳、火星的位置关系。这些成果有可能从底层催动世界模型的进展，让 AI 的智能化进入更高的水平。 ➢ 众多厂商推出世界模型，相关领域已展开角逐。英伟达推出 Cosmos，赋能机器人和自动驾驶开发者。Cosmos 世界基础模型是一套用于物理感知视频生成的开放式扩散和自回归 Transformer 模型。这些模型已基于 2000 万小时的真实世界人类互动、环境、工业、机器人和驾驶数据，训练了 9,000 万亿个 token。李飞飞创立 World Labs，探索从 2D 到 3D 的路径。World Labs 是一家空间智能 AI 公司，由在AI 学术领域享有盛誉的李飞飞博士创立。World Labs 致力于构建空间智能大型世界模型（LWM）来感知、生成 3D 世界并与之交互。其目标是将 AI 模型从像素的 2D 平面提升到完整的 3D 世界。World Labs 仅创立了三个月，便吸引了英伟达、AMD 等公司的融资，估值超过 10 亿美元。谷歌旗下 DeepMind 推出 Genie2，性能强大用例广泛。Genie 2 是一种自回归潜在扩散模型，在大型视频数据集上进行了训练。通过自动编码器后，视频中的潜在帧被传递到大型 transformer 动力学模型，该模型使用类似于大型语言模型使用的因果掩码进行训练。在推理时，Genie 2 可以以自回归方式进行采样，逐帧执行单个作和过去的潜帧。谷歌使用无分类器的指导来提高可控性。在 DeepMind 官网上，Genie2 的能力也非常强大。昆仑万维发布Matrix-Zero，国产模型紧追不舍。昆仑万维发布的 Matrix-Zero 世界模型包含两款子模型，其中，3D 场景生成大模型支持将用户输入的图请阅读最后一页免责声明及信息披露 http://www.cindasc.com 3 信达证券股份有限公司 CINDA SECURITIES CO.,LTD 北京市西城区宣武门西大街甲127号金隅大厦B座邮编：100031 片转化为可自由探索的真实合理的 3D 场景。而可交互视频生成大模型，提供以用户输入为核心驱动的可交互空间智能视频生成方案，支持根据用户实时输入生成互动视频效果，具备更精准控制的 action model。 ➢ 投资建议：无论是北美还是国内，推理成本的降低及推理性能的迅速提升趋势非常显著。微软董事长 Satya Nadella 曾在法说会表示，每代硬件的性价比提高 2 倍以上，而由于软件优化，每代模型的性能提升10 倍以上。DeepSeek 卓越的性价比让人印象深刻，据 Semianalysis观察，在 GPT-4 上同样有类似的趋势，即每过一年，算法改进和优化使得推理成本降低 10 倍，同时性能提升 10 倍。因此，我们认为，AI的发展目前正如火如荼地进行着，大模型不会满足于帮人类查找资料这样的小事，长期看它甚至具备改变部分行业运行逻辑的潜力。而当前伴随推理性能的提升和推理成本的降低，许多算力密集型的场景有了落地的可能，本文所探讨的世界模型便是其中一个例子。世界模型可以帮助端侧理解并预测世界，从而产生正确的决策。从云来看，由于多模态数据的训练与推理，算力需求总体仍然呈现迅速增长的趋势；而从端来看，人形机器人、自动驾驶等重要赛道有望迅速前进，以突破目前的智能化瓶颈。AI 呈现出巨大的产业前景，建议关注相关产业链优质个股。 ➢ 相关个股：【AI 云侧】工业富联/沪电股份/生益科技/深南电路/胜宏科技/寒武纪/海光信息；【AI 端侧】蓝思科技/领益智造/鹏鼎控股/东山精密/乐鑫科技/瑞芯微/恒玄科技/全志科技/兆易创新/晶晨股份等。 ➢ 风险因素：宏观经济下行风险；下游需求不及预期风险；中美贸易摩擦加剧风险。请阅读最后一页免责声明及信息披露 http://www.c

立即下载

信息科技

2025-03-05

信达证券

杨宇轩,莫文宇

16页

2.09M

[信达证券]:电子：世界模型探索空间智能，AI复杂场景落地可期，点击即可下载。报告格式为PDF，大小2.09M，页数16页，欢迎下载。

本报告共16页，只提供前10页预览，清晰完整版报告请下载后查看，喜欢就下载吧！

立即下载

本报告共16页，只提供前10页预览，清晰完整版报告请下载后查看，喜欢就下载吧！

立即下载

水滴研报所有报告均是客户上传分享，仅供网友学习交流，未经上传用户书面授权，请勿作商用。

电子：世界模型探索空间智能，AI复杂场景落地可期

关于我们

联系我们

电子：世界模型探索空间智能，AI复杂场景落地可期

关于我们

联系我们

小程序

公众号