AI事件点评:OpenAI发布文生视频模型Sora,赋能内容创作与社交平台
请务必阅读正文之后的免责声明及其项下所有内容证券研究报告 | 2024年02月27日超 配1AI 事件点评OpenAI 发布文生视频模型 Sora,赋能内容创作与社交平台 行业研究·行业快评 互联网·互联网Ⅱ 投资评级:超配(维持评级)证券分析师:张伦可0755-81982651zhanglunke@guosen.com.cn执证编码:S0980521120004联系人:刘子谭liuzitan@guosen.com.cn事项:2024 年 2 月 16 日,OpenAI 推出全新文生视频模型“Sora”,宣称为可以理解真实世界规则的世界模拟器。用户可以输入提示词,生成最长为六十秒的模拟真实世界的视频。相比此前 Pika、Runway 等工具,Sora具备向前扩展视频,视频拼接、多镜头视频生成等新能力,在视频时长,拟真度与一致性等方面也大幅领先。考虑到技术还不成熟以及安全伦理风险,Sora 目前仅提供给内测用户使用,未向公众开放。国信互联网观点:1)Sora 作为新一代 AI 文生视频模型,能力提升显著:2023 年,文生视频模型开始陆续发布。大多产品处于早期阶段,生成视频时长少于 5 秒且风格单一、逻辑错误较多。 科技大厂在这一领域的代表产品有 Meta 的 Emu Video、谷歌的 W.A.L.T 和 Lumiere、字节跳动的 MagicVideo 等。其它初创团队如 Runway、Stability AI、Pika Labs 也开发了当前代表性的文生视频模型 Gen-2、Stable Animation、pika1.0。新发布的 Sora 采用创新性技术,不仅拥有视频拼接、多镜头视频生成等新能力,更在视频时长,拟真度与一致性等方面大幅领先;2)2024 年文生视频大模型领域竞争加剧,各大厂商加快开发节奏:2024年 1 月 2 日,文生图著名初创公司 Midjourney 宣布加快训练文生视频模型。Runway 开发的 Gen-2 模型也进行了快速更新,视频质量大幅提升,视频时长提高至 18 秒。国内大厂字节跳动与腾讯在 1 月公布了MagicVideo V2 与 VideoCrafter2; 3)Sora 的领先优势较难打破,促使社交及内容平台等科技大厂与OpenAI 更紧密的合作:虽然 Sora 技术报告并未展示出突破性的创新,其视频转化成基本视觉单元、降维等技术手段在计算机视觉领域并非特别复杂。但是 Sora 模型的成功不仅仅依赖于公开的技术路径,更多来自于未公开的技术细节,如训练数据的来源与处理、模型的技术细节(如优化器、迭代训练轮次、迭代补偿、收敛标准等)以及对算力和资源的需求。考虑到 Sora 模型的目前先进程度和实际效果,在 OpenAI算力与资源都领先的情况下,Runway 等初创企业以及科技大厂追赶的难度较大。虽然在模型层面科技公司不一定能够追赶上 OpenAI 的领先技术,但 YouTube、Facebook、Tiktok 等视频及社交平台本身具有除了技术优势之外的高护城河,平台公司可以利用 Sora 技术进一步增强用户体验和内容质量、降低内容创作的成本,OpenAI 和社交及内容平台之间的合作关系可能会更加紧密。评论: Sora 功能1)生成最长一分钟的视频:Sora 是视觉数据的通用模型,能够生成提供图像和提示作为输入的视频,可以生成不同时长、长宽比和分辨率的视频和图像,最多可达一分钟的高清视频。2)从时间、空间上扩展生成的视频,连接视频: Sora 能够执行各种图像和视频编辑任务 - 创建完美的循环视频、动画静态图像、在时间上向前或向后扩展视频等。使用 Sora 在两个输入视频之间逐渐进行插值,从而在具有完全不同主题和场景构成的视频之间创建无缝过渡。3)视频编辑:扩散模型启用了多种根据文本提示编辑图像和视频的方法,使 Sora 能够零镜头地改变输入视频的风格和环境。4)生成高清图像:Sora 通过空间网格中排列高斯噪声块来生成各种尺寸的图像,分辨率高达 2048x2048。请务必阅读正文之后的免责声明及其项下所有内容证券研究报告2涌现模拟真实世界功能,保持 3D 一致性、远程相干性和物体持久性。 Sora 与 Runway、Pika 等竞品对比1)视频时长更长且镜头切换顺畅:Sora 可以完成镜头切换后的衔接,因此可以生成 60 秒的超长视频,且具备视频向前扩展,视频连接,多镜头等独有性能。其它模型如 Runway 只能生成 20 秒以内单镜头视频。2)视频尺寸自由:Sora 模型可以生成1920*1080和1080*1920 间所有尺寸,但其它视频生成模型如 RunwayGen-2 只能生成 16:9,9:16,1:1 等固定比例视频。3)画面稳定:以“东京漫步的女士”为例,Sora 视频中人物行动十分稳定,但其它视频生成模型会出现画面失真以及错误的动作。4)具备初步理解世界和模拟世界能力:相比其它视频生成模型,Sora 可以生成动态摄像机的视频且人物场景随相机移动也能顺畅移动,表现出 3D 一致性;因为相机角度切换,物体遮挡前和遮挡后能保持一致,表现出远程相关性和物体持久性;在 OpenAI 发布的吃汉堡视频中,食物上的痕迹变化能基本按照物理规则还原,表现出模拟物理交互的能力。图1:遮挡前后小狗保持一致资料来源:OpenAI 官网、国信证券经济研究所整理图2:吃汉堡后食物有痕迹资料来源:OpenAI 官网、国信证券经济研究所整理 Sora 技术优势:1)创新性与工程化能力: Sora 的优势在于其灵活创造并使用 AI 工具,推陈出新、另辟蹊径。主要包括用于降维的神经网络和解压缩工具,视频打标签工具,视频文本描述生成工具,用户语句转化为复杂定义的 Prompt 工具。训练灵活采样,以原始长宽比对视频进行训练,与其他视频生成模型不同,后者往往将视频预处理到固定大小,如 256×256 分辨率的 4 秒视频。Sora 这一做法可以支持从 1920×1080p 宽屏视频到 1080×1920 垂直视频及其间所有格式的采样,进而直接创造出不同宽高比的内容。此外,这种方法在视频构图和取景方面带来了改善。请务必阅读正文之后的免责声明及其项下所有内容证券研究报告32)对 Transformer 技术的深刻理解解决视频时空连贯性问题:Sora 采用了基于 Transformer 的扩散模型架构取代常见的 Runway 和 Stable Video Diffusion 等采用 U-Net 架构的扩散模型,显著增强了模型的扩展能力。传统的 AI 视频生成方式,如 Runway 采用的是把 AI 生成的图片拼接成视频。通常只能参考前一帧或前两帧的内容,连续性短时间可以,但对于跨度较大的时间段无法很好地处理。Sora 的解决方案是同时考虑时间和空间顺序,即时间空间编码。利用 patches 使得 Sora 能对场景变换有更好的处理,无论从人物角度变换,或者场景之间的切换,都能保持主题不变,且记忆连贯。图3:Sora 模型原理资料来源:OpenAI 官网、国信证券经济研究所整理3)强大算力的支持:AI 视频生成算力需求远超一张图片。相比一张图片,制作一秒钟动态视频基
[国信证券]:AI事件点评:OpenAI发布文生视频模型Sora,赋能内容创作与社交平台,点击即可下载。报告格式为PDF,大小0.67M,页数7页,欢迎下载。
