计算机:OpenAI Sora模型发布,视频生成技术迎来突破性升级
请阅读最后一页免责声明及信息披露 http://www.cindasc.com1证券研究报告行业研究[Table_ReportType]点评报告[Table_StockAndRank]计算机投资评级:看好上次评级:看好[Table_Author]庞倩倩 计算机行业首席分析师执业编号:S1500522110006邮箱:pangqianqian@cindasc.com[Table_OtherReport]信达证券股份有限公司CINDA SECURITIES CO.,LTD北京市西城区闹市口大街9号院1号楼邮编:100031[Table_Title]OpenAI Sora 模型发布,视频生成技术迎来突破性升级[Table_ReportDate]2024 年 2 月 19 日事件:2 月 15 日,OpenAI 发布 Sora AI 视频生成模型,文本生成视频模型迎来重大突破。此次发布的 Sora 模型能够根据用户的文本描述生成长达 60 秒、1080P 高质量视频,其中包含精细复杂的场景、生动的角色表情以及复杂的镜头运动。模型亮点:1)视频生成时间长达 1 分钟,大幅领先其他 AI 视频生成模型。2)单视频多角度镜头。3)3D 一致性:Sora 可以生成摄像机动态运动的视频。随着摄像机的移动和旋转,人物和场景元素在 3D 空间中的移动会保持一致。4)Sora 可以向前向后拓展视频,连接视频。5)模拟数字世界:Sora 还能够模拟人工过程,例如视频游戏。Sora 模型的技术实现特点:Sora 基于扩散模型,并且在其中使用了Transformer 架构,将视频和图像分解为 Patch 小数据单元,这些 Patch类似于 GPT 中的 Token,用于在 Transformer 模型中进行训练和生成;同时 OpenAI 将 DALL·E3 引入到 Sora 里,使得 Sora 能够精准地还原用户的文本提示,生成高质量的长视频。应用展望:随着文生图、图片对话技术的成熟,文生视频可能成为多模态大模型下一步发展的方向。该技术有望极大地降低短剧制作的成本,并且会进一步向影视、自媒体、游戏等领域渗透,提高视频创作效率等。风险提示:行业竞争加剧、金融科技发展不及预期。请阅读最后一页免责声明及信息披露 http://www.cindasc.com21.OpenAI 发布 Sora 模型,视频生成亮点突出2 月 15 日,OpenAI 发布 Sora AI 视频生成模型,文本生成视频模型迎来重大突破。此次发布的 Sora 模型能够根据用户的文本描述生成长达 60 秒、1080P 高质量视频,其中包含精细复杂的场景、生动的角色表情以及复杂的镜头运动。1)视频生成时间长达 1 分钟,大幅领先其他 AI 视频生成模型。目前文本视频生成热门模型中,pika 1.0 默认生成 3 秒视频,可拓展到 7 秒;而 runaway gen2 模型最高可生成 18秒视频。图 1:Sora 生成 1 分钟视频示例资料来源:OpenAI 官网,信达证券研发中心2)单视频多角度镜头:在单个样本中生成同一角色的多个镜头,实现各种中、近、远景的切换,并在整个视频中稳定保持其外观。3)3D 一致性:Sora 可以生成摄像机动态运动的视频。随着摄像机的移动和旋转,人物和场景元素在 3D 空间中的移动会保持一致。长距离一致性和对象持久性,是生成高质量长视频的一个重大挑战。Sora 经常能够有效地模拟短距离和长距离依赖关系。例如,即使人、动物和物体被遮挡或离开画面,也能保持它们的存在。图 2:Sora 生成动态运动视频示例资料来源:OpenAI 官网,信达证券研发中心请阅读最后一页免责声明及信息披露 http://www.cindasc.com34)Sora 可以向前向后拓展视频,连接视频。 可以使用 Sora 在两个输入视频之间逐渐插值,在具有完全不同主题和场景构图的视频之间创建无缝过渡。图 3:Sora 连接视频示例,中间的视频在左侧和右侧的相应视频之间进行插值。资料来源:OpenAI 官网,信达证券研发中心5)模拟数字世界:Sora 还能够模拟人工过程,例如视频游戏。Sora 可以同时通过基本策略控制 Minecraft 中的玩家,同时还可以高保真地渲染世界及其动态。视频生成质量、能力上领先其余模型。Sora 模型不仅在视频时长上远超其他文生视频模型,其在视频长宽比、视频拓展等功能上也领先于其他模型。OpenAI Sora 支持 1920x1080与 1080x1920 之间任意尺寸变换,而其他工具(Runway Gen2、Pika 等)只有固定尺寸如 16:9、1:1 等;另外相比于其余模型只能向后拓展视频,Sora 支持前后双向拓展。另外在视频连接、运动相机模拟等能力上也有一定程度的优势。2.Sora 模型的技术实现特点分析Sora 基于扩散模型,其机理是从静态噪声开始,通过多个步骤逐渐去除噪声,最终生成清晰视频。这种模型能够处理视频和图片中时空片段的潜代码。并且在其中使用了Transformer 架构,这种架构在处理语言模型、计算机视觉和图像生成等领域表现出了卓越的扩展能力。并且 Sora 使用“视频补丁”Patch,OpenAI 发现,视频补丁是一种高度可扩展且有效的表示形式,可用于在不同类型的视频和图像上训练生成模型。在较高维度上,OpenAI 首先将视频压缩到低维潜在空间中,然后将其分解为时空 Patch,这些 Patch 类似于 GPT 中的Token,用于在 Transformer 模型中进行训练和生成。Sora 的扩散 Transformer 模型能够有效地扩展,处理不同分辨率、持续时间和纵横比的视频和图片。请阅读最后一页免责声明及信息披露 http://www.cindasc.com4图 4:Sora 将视频分解为 Patch资料来源:OpenAI 官网,信达证券研发中心精确文本语义理解:同时 OpenAI 将 DALL·E3 引入到 Sora 里,首先训练一个高度描述性的字幕模型,然后用它为训练集中的所有视频制作文本字幕。OpenAI 表示,在高度描述性的视频字幕上进行训练,可提高文本的保真度以及视频的整体质量。与DALL·E3 一样,OpenAI 也通过 GPT 将简短的用户提示转化为较长的详细字幕,并发送给视频模型。这使得 Sora 能够精准地还原用户的文本提示,生成高质量的长视频。模型局限性:Sora 目前还存在一些局限性。例如,它不能准确模拟许多基本交互的物理现象,如玻璃碎裂。其他交互,如吃食物,并不总能产生正确的物体状态变化。官方主页列举了该模型的其他常见失效模式,例如长时间样本中出现的不一致性或物体的自发出现等。3.Sora 模型的应用展望随着文生图、图片对话技术的成熟,文生视频可能成为多模态大模型下一步发展的方向。该技术有望极大降低短剧制作的成本,并且会进一步向影视、自媒体、游戏等领域渗透,提高视频创作效率等。Sora 展示了 AI 在理解和模拟物理世界方面的能力,这被认为是实现通用人工智能(AGI)的关键一步(AGI 是指能够在多种任务和环境中灵活应用知识的 AI)。请阅读最后一页免责声明及信息披
[信达证券]:计算机:OpenAI Sora模型发布,视频生成技术迎来突破性升级,点击即可下载。报告格式为PDF,大小0.66M,页数6页,欢迎下载。
