AI事件点评：OpenAI发布文生视频模型Sora，赋能内容创作与社交平台

请务必阅读正文之后的免责声明及其项下所有内容证券研究报告 | 2024年02月27日超配1AI 事件点评OpenAI 发布文生视频模型 Sora,赋能内容创作与社交平台 行业研究·行业快评 互联网·互联网Ⅱ 投资评级：超配（维持评级）证券分析师：张伦可0755-81982651zhanglunke@guosen.com.cn执证编码：S0980521120004联系人：刘子谭liuzitan@guosen.com.cn事项：2024 年 2 月 16 日，OpenAI 推出全新文生视频模型“Sora”，宣称为可以理解真实世界规则的世界模拟器。用户可以输入提示词，生成最长为六十秒的模拟真实世界的视频。相比此前 Pika、Runway 等工具，Sora具备向前扩展视频，视频拼接、多镜头视频生成等新能力，在视频时长，拟真度与一致性等方面也大幅领先。考虑到技术还不成熟以及安全伦理风险，Sora 目前仅提供给内测用户使用，未向公众开放。国信互联网观点：1）Sora 作为新一代 AI 文生视频模型，能力提升显著：2023 年，文生视频模型开始陆续发布。大多产品处于早期阶段，生成视频时长少于 5 秒且风格单一、逻辑错误较多。科技大厂在这一领域的代表产品有 Meta 的 Emu Video、谷歌的 W.A.L.T 和 Lumiere、字节跳动的 MagicVideo 等。其它初创团队如 Runway、Stability AI、Pika Labs 也开发了当前代表性的文生视频模型 Gen-2、Stable Animation、pika1.0。新发布的 Sora 采用创新性技术，不仅拥有视频拼接、多镜头视频生成等新能力，更在视频时长，拟真度与一致性等方面大幅领先；2）2024 年文生视频大模型领域竞争加剧，各大厂商加快开发节奏：2024年 1 月 2 日，文生图著名初创公司 Midjourney 宣布加快训练文生视频模型。Runway 开发的 Gen-2 模型也进行了快速更新，视频质量大幅提升，视频时长提高至 18 秒。国内大厂字节跳动与腾讯在 1 月公布了MagicVideo V2 与 VideoCrafter2； 3）Sora 的领先优势较难打破，促使社交及内容平台等科技大厂与OpenAI 更紧密的合作：虽然 Sora 技术报告并未展示出突破性的创新，其视频转化成基本视觉单元、降维等技术手段在计算机视觉领域并非特别复杂。但是 Sora 模型的成功不仅仅依赖于公开的技术路径，更多来自于未公开的技术细节，如训练数据的来源与处理、模型的技术细节（如优化器、迭代训练轮次、迭代补偿、收敛标准等）以及对算力和资源的需求。考虑到 Sora 模型的目前先进程度和实际效果，在 OpenAI算力与资源都领先的情况下，Runway 等初创企业以及科技大厂追赶的难度较大。虽然在模型层面科技公司不一定能够追赶上 OpenAI 的领先技术，但 YouTube、Facebook、Tiktok 等视频及社交平台本身具有除了技术优势之外的高护城河，平台公司可以利用 Sora 技术进一步增强用户体验和内容质量、降低内容创作的成本，OpenAI 和社交及内容平台之间的合作关系可能会更加紧密。评论： Sora 功能1）生成最长一分钟的视频：Sora 是视觉数据的通用模型，能够生成提供图像和提示作为输入的视频，可以生成不同时长、长宽比和分辨率的视频和图像，最多可达一分钟的高清视频。2）从时间、空间上扩展生成的视频，连接视频： Sora 能够执行各种图像和视频编辑任务 - 创建完美的循环视频、动画静态图像、在时间上向前或向后扩展视频等。使用 Sora 在两个输入视频之间逐渐进行插值，从而在具有完全不同主题和场景构成的视频之间创建无缝过渡。3）视频编辑：扩散模型启用了多种根据文本提示编辑图像和视频的方法，使 Sora 能够零镜头地改变输入视频的风格和环境。4）生成高清图像：Sora 通过空间网格中排列高斯噪声块来生成各种尺寸的图像，分辨率高达 2048x2048。请务必阅读正文之后的免责声明及其项下所有内容证券研究报告2涌现模拟真实世界功能，保持 3D 一致性、远程相干性和物体持久性。 Sora 与 Runway、Pika 等竞品对比1）视频时长更长且镜头切换顺畅：Sora 可以完成镜头切换后的衔接，因此可以生成 60 秒的超长视频，且具备视频向前扩展，视频连接，多镜头等独有性能。其它模型如 Runway 只能生成 20 秒以内单镜头视频。2）视频尺寸自由：Sora 模型可以生成1920*1080和1080*1920 间所有尺寸，但其它视频生成模型如 RunwayGen-2 只能生成 16：9，9：16，1：1 等固定比例视频。3）画面稳定：以“东京漫步的女士”为例，Sora 视频中人物行动十分稳定，但其它视频生成模型会出现画面失真以及错误的动作。4）具备初步理解世界和模拟世界能力：相比其它视频生成模型，Sora 可以生成动态摄像机的视频且人物场景随相机移动也能顺畅移动，表现出 3D 一致性；因为相机角度切换，物体遮挡前和遮挡后能保持一致，表现出远程相关性和物体持久性；在 OpenAI 发布的吃汉堡视频中，食物上的痕迹变化能基本按照物理规则还原，表现出模拟物理交互的能力。图1：遮挡前后小狗保持一致资料来源：OpenAI 官网、国信证券经济研究所整理图2：吃汉堡后食物有痕迹资料来源：OpenAI 官网、国信证券经济研究所整理 Sora 技术优势：1）创新性与工程化能力： Sora 的优势在于其灵活创造并使用 AI 工具，推陈出新、另辟蹊径。主要包括用于降维的神经网络和解压缩工具，视频打标签工具，视频文本描述生成工具，用户语句转化为复杂定义的 Prompt 工具。训练灵活采样，以原始长宽比对视频进行训练，与其他视频生成模型不同，后者往往将视频预处理到固定大小，如 256×256 分辨率的 4 秒视频。Sora 这一做法可以支持从 1920×1080p 宽屏视频到 1080×1920 垂直视频及其间所有格式的采样，进而直接创造出不同宽高比的内容。此外，这种方法在视频构图和取景方面带来了改善。请务必阅读正文之后的免责声明及其项下所有内容证券研究报告32）对 Transformer 技术的深刻理解解决视频时空连贯性问题：Sora 采用了基于 Transformer 的扩散模型架构取代常见的 Runway 和 Stable Video Diffusion 等采用 U-Net 架构的扩散模型，显著增强了模型的扩展能力。传统的 AI 视频生成方式，如 Runway 采用的是把 AI 生成的图片拼接成视频。通常只能参考前一帧或前两帧的内容，连续性短时间可以，但对于跨度较大的时间段无法很好地处理。Sora 的解决方案是同时考虑时间和空间顺序，即时间空间编码。利用 patches 使得 Sora 能对场景变换有更好的处理，无论从人物角度变换，或者场景之间的切换，都能保持主题不变，且记忆连贯。图3：Sora 模型原理资料来源：OpenAI 官网、国信证券经济研究所整理3）强大算力的支持：AI 视频生成算力需求远超一张图片。相比一张图片，制作一秒钟动态视频基

立即下载

电子设备

2024-02-27

国信证券

张伦可

7页

0.67M

[国信证券]:AI事件点评：OpenAI发布文生视频模型Sora，赋能内容创作与社交平台，点击即可下载。报告格式为PDF，大小0.67M，页数7页，欢迎下载。

本报告共7页，只提供前10页预览，清晰完整版报告请下载后查看，喜欢就下载吧！

立即下载

本报告共7页，只提供前10页预览，清晰完整版报告请下载后查看，喜欢就下载吧！

立即下载

水滴研报所有报告均是客户上传分享，仅供网友学习交流，未经上传用户书面授权，请勿作商用。

AI事件点评：OpenAI发布文生视频模型Sora，赋能内容创作与社交平台

关于我们

联系我们

AI事件点评：OpenAI发布文生视频模型Sora，赋能内容创作与社交平台

关于我们

联系我们

小程序

公众号