OpenAI Sora专题:Transformer扩展优势凸显,视频理解与生成能力提升
Transformer扩展优势凸显,视频理解与生成能力提升 西南证券研究发展中心 海外研究团队 王湘杰 2024年2月 OpenAI Sora专题 2 核心观点 事件:2024年2月16日,OpenAI发布文生视频模型——Sora及其技术报告《Video generation models as world simulators》。 从Sora模型看文生视频的技术路径:技术路径尚未收敛,Transformer扩展特性优势凸显。市场大多认为扩散模型是图像和视频生成领域的主流路径,但没有重视Transformer架构scale up的能力。OpenAI技术报告指出,Sora是基于扩散模型,但更强调,Sora是一个基于Transformer架构的扩散模型,其优秀的生成能力离不开Transformer架构优秀的scaling特性。当前,为构建性能更优、效率更高的视频生成模型,已出现多种结合Diffusion Model和Transformer架构的构建方式。 从Sora模型看文生视频的最新能力(假设展示视频可以代表Sora的一般性表现):1)强大的理解能力:Sora模型不仅可以理解Prompt的内容,还能理解事物在物理世界中的存在方式,突出的语言理解能力是其能够准确生成视频的前提。2)优秀的生成能力:①长度:可生成60s视频;②复杂度:能够生成包含多个角色、多种主题、多类运动形态的复杂场景;③逼真度:能够呈现更多的视觉细节,具备更高清的画质,为用户提供逼真的视觉体验;④连贯性&一致性:可以生成同一角色的多个镜头,保持其在整个视频中的外观,在角度移动和切换情况下,人物和场景元素在三维空间中的位置关系能够保持一致的运动;⑤可控性:在某一Prompt基础上只改动一个关键词仍能生成优质的视频,具备较好的可控性。3)其他能力:图生视频,视频扩展/编辑/拼接/模拟等。 从Sora模型看文生视频的行业影响:目前OpenAI已向部分视觉艺术家、设计师和电影制作人提供访问权限,以获取专业的反馈。我们认为,以Sora为代表的视频生成模型有望给广告/设计/短视频/游戏等行业带来变化。从中短期来看,视频生成模型将更多的作为创作工具对相关行业进行赋能。 投资建议:随着文生视频模型的迭代升级和未来的大规模应用,算力需求有望增长,云服务有望成为算力的重要补充,视频传输也将带动高带宽、高性能的光通信需求,建议关注算力、云服务和光通信领域投资机会。相关标的:英伟达(NVDA.O)、超威半导体(AMD.O)、微软(MSFT.O)等。 风险提示:技术进展不及预期风险;行业竞争加剧风险;应用开发不及预期风险。 1 2 1.1 发展现状:视觉生成热潮兴起,路径探索仍在继续 1.2 路径对比:扩散模型占据主流,自回归模型潜力可期 1.3 未来趋势:transformer优势凸显,多种模型构建方式有望呈现 1 从Sora看文生视频模型的技术路径 目 录 2 从Sora看文生视频模型的最新能力 2.2 理解能力:领会并细化提示词,学习及模拟物理世界 2.3 生成能力:视频长度优势明显,连贯性及可控性提升 2.4 其他能力:图生视频,视频扩展/编辑/拼接/模拟等 2.1 模型背景:团队成员年轻有为,相关技术积累深厚 3.1 算力端:参数扩展提升训练算力消耗,应用落地拉动推理算力增长 3 从Sora看文生视频模型的影响 3.2 应用端:文生视频模型拓宽应用广度,前期有望以助手角色落地 3.3 其他:云服务将成算力重要补充,多媒体传输带动光通信需求 从模态发展情况来看:AI大模型的生成和理解能力从单模态向多模态发展已成社会共识。当前,大语言模型在文本端的应用趋于成熟,图像和视频生成技术快速发展,AI视觉浪潮正加速到来。 从市场催化节奏来看:受文本端杀手级应用ChatGPT(于22年11月推出)和图像生成代表应用Midjourney V5(于23年3月推出)的影响,文本端和图像生成应用已于2023年迎来市场催化。2024年2月16日,OpenAI发布Sora文生视频,引发市场对视频生成领域的高度关注。未来,随着模型的持续迭代和相关应用的涌现,视频生成领域有望在24年迎来热潮。 资料来源:西南证券 大模型多模态发展情况 1.1.1 发展现状:多模态发展已成共识,视觉生成热潮逐步兴起 3 文本端 趋势 基石 理论 核心 模型 2017年6月Transformer架构提出 2018年10月Bert初 代模型 推 出 , 2020 年 6 月GPT-3奠定基石闭源模型 22年底~23H1 Killer App-ChatGPT出现 代表 应用 2022年11月ChatGPT推出,成为杀手级应用 文生图像 2020年6月DDPM提出 2021年1 月DALL-E为初代模型,22年8月Stable Diffusion基石开源模型 2023 年3 月 Midjourney -V5推出,成为代表应用 文生视频 2022年4月 Diffusion base model kickoff 2022年9月出现Make-A-Video、ImagenVideo等;2024年2月Sora模型 2023 年 11 月 29 日 Pika-1.0推出 ,拉开视频生成应用的帷幕 文生3D 2020年3月NeRF论文发表;2023年8月提出 3D Gaussian Splatting / 2023 年 12 月 Tripo的 推 出 和2024年1月Genie-1.0文生3D应用崭露头角 23Q2至今 众多图像生成应用涌现 24H2~25H1 视频生成或迎来ChatGPT时刻 2025年及以后 3D生成领域加速发展 从理论到应用的历时逐步缩短,多模态时代加速到来 1.1.2 发展现状:文本端技术路径收敛于LLM,视觉生成领域仍在探索 多模态大模型技术路径情况 技术路径 当前主流 潜在路径 是否收敛 LLM—Transformer—Decoder only 扩散模型 Stability AI—Stable Diffusion OpenAI—GLIDE, DALL-E 2 Google—Imagen & Imagen 2 基于transformer的自回归模型: Google—Parti OpenAI—DALL-E 1 扩散模型+transformer架构: OpenAI—DALL-E 3 扩散模型: Stability AI-Stable video Diffusion Google—Imagen Video 基于transformer自回归模型: Google—VideoPoet 扩散模型+transformer架构: Google—W.A.L.T OpenAI—Sora 2D向3D升维:先由扩散模型实现text-to-2D,再由NeRF实现2D-to-3D OpenAI—Point-E Google—DreamFusio Nvidia—Magic3D 3D原生: OpenAI—Shape-E Nvidia—Get3D 当前技术路径已收敛于LLM 技术路径 尚未收
[西南证券]:OpenAI Sora专题:Transformer扩展优势凸显,视频理解与生成能力提升,点击即可下载。报告格式为PDF,大小3.97M,页数37页,欢迎下载。
