多模态AI大模型点评:OpenAI发布首款文生视频大模型Sora,训练算力需求大幅提升
请务必阅读正文之后的免责声明及其项下所有内容证券研究报告 | 2024年02月17日超 配1多模态 AI 大模型点评OpenAI 发布首款文生视频大模型 Sora,训练算力需求大幅提升 行业研究·行业快评 计算机 投资评级:超配(维持评级)证券分析师:熊莉021-61761067xiongli1@guosen.com.cn执证编码:S0980519030002联系人:艾宪0755-22941051aixian@guosen.com.cn事项:2024 年 2 月 16 日,OpenAI 发布首款文生视频大模型 Sora,可以快速生成 60 秒、准确反映用户提示的视频,在多镜头一致性等维度表现出色。国信计算机观点:1)OpenAI 发布首款文生视频大模型 Sora,可以快速生成 60 秒、准确反映用户提示的视频,其在视频长度、多角度视频一致性、物理世界理解等领域具有优势;2)Sora 技术原理:通过已知Patches 推测下一 Patches,将 Transformer 和 Diffusion 相结合;3)多模态大模型拉动训练算力需求提升。4)投资建议:多模态大模型拉动全球算力需求快速增长,关注国产 AI 算力侧机会,建议关注国产 AI算力龙头公司海光信息。5)风险提示:宏观经济复苏不及预期,云厂商资本开支不及预期,市场竞争加剧,产品研发不及预期,国产 AI 算力芯片导入不及预期等。评论: OpenAI 发布首款文生视频大模型 Sora,可以快速生成 60 秒、准确反映用户提示的视频2024 年 2 月 16 日,OpenAI 发布首款文生视频大模型 Sora,可以快速生成 60 秒、准确反映用户提示的视频,其具有 60 秒超长长度、多角度视频一致性、对物理世界理解等特性。Sora 可生成 60 秒超长视频。相较于 RunwayML Gen-2、Pika 等文生视频大模型,Sora 可以生成 60 秒一镜到底的视频,视频逻辑顺畅、主人物及背景的行人均非常稳定,文生视频大模型能力进一步提升。Sore 多角度视频一致性。Sore 可以在单个生成视频中创建多个镜头,以准确保留角色和视觉风格。根据OpenAI 官网发布的 Demo,59 秒的视频中,有多角度镜头,且主人物保持了完美的一致性。图1:Sora可以生成60秒长视频,且实现多角度视频一致性图42:• 根据 IDC 测算,国内智能算力规模正在高速增长,2021 年中国智能资料来源:OpenAI,国信证券经济研究所整理请务必阅读正文之后的免责声明及其项下所有内容证券研究报告2Sore 在尝试理解物理世界。根据 OpenAI 官网披露,Sore 不仅可以理解用户 Prompt 的要求,同时亦尝试理解 Prompt 中的事物在物理世界中的存在方式(即物理规律)。根据 OpenAI 官网 Demo 视频中,汽车在山路行驶中的颠簸,以及猫踩奶等动作符合物理世界规律,视频逼真度进一步提升。图2:OpenAI官网Demo中的汽车颠簸图12:算力规模达 155.2EFLOPS,2022 年智能算力规模将达到图3:OpenAI官网Demo中的猫踩奶资料来源:OpenAI,国信证券经济研究所整理资料来源:OpenAI,国信证券经济研究所整理 Sora 技术原理:Transformer+Diffusion通过已知 Patches 推测下一 Patches。传统大语言模型通过已知 Tokens 推测下一 Tokens,Sora 同大语言模型类似,将视频数据切分成不同 Patches(即大语言模型中的 Tokens),通过已知 Patches 推测下一Patches。通常可以分为以下两个步骤:1)将高纬度视频数据压缩成低纬度隐空间(Latent Space):OpenAI通过训练视频压缩网络实现该步骤,通常将视频数据作为输入(input),后对视频数据进行时间和空间维度的压缩,并输出(output)潜在表示(latent representation)。2)进一步将数据转化为 Spacetime Patches:提取一系列的 latent Space 作为训练/推理的 Tokens,完成对模型的训练。图4:将视频数据转化为Patches(即Tokens)图42:• 根据 IDC 测算,国内智能算力规模正在高速增长,2021 年中国智能资料来源:OpenAI,国信证券经济研究所整理通过 Diffusion 还原画面。如前文所述,通过已知 Patches 推测下一 Patches,得到的是 Latent Patches,OpenAI 通过训练 Decoder 将得到的 latent Space 映射到像素空间,再通过 Diffusion 模型进一步还原画面。请务必阅读正文之后的免责声明及其项下所有内容证券研究报告3图5:通过Diffusion还原画面图42:• 根据 IDC 测算,国内智能算力规模正在高速增长,2021 年中国智能资料来源:OpenAI,国信证券经济研究所整理 多模态大模型拉动训练算力需求提升OpenAI 没有公布 Sora 视频数据切割的细节,我们以 Ze Liu 等著《Video Swin Transformer(2021)》为例,输入一个尺寸为 T×H×W×3 的视频(此处 T 选取 32,代表从视频中采样得到 32 帧,采样方法可自行选择,通常为等间隔采样,视频长度通常约 10s;每帧包含 H×W×3 个像素),通过 3D Patch Partition可以得到(T/2)*(H/4)*(W/4)个 3D Patch(尺寸为 2*4*4*3),即为 Tokens,之后再经过 Video SwinTransformer 和 Patch Merging 获得多帧数据的高维特征,完成视频数据训练。根据《Will we run out ofdata? An analysis of the limits of scaling datasets in Machine Learning(Pablo 等著,2022 年)》披露数据,Youtube 每分钟大约上传 500 小时视频,则我们可以得到 Youtube 一年增量视频数据为 500×3600×24×365=157.68 亿秒。通常分类任务视频为 10s 左右,对应采样帧数为 32,假设每帧图片分辨率为 1024×768,则 10s 视频对应的 Token 数量为 (32/2)*(1024/4)*(768/4)=78.64 万个 Tokens,则 Youtube一年增量视频数据为 1.24e15 个 Tokens,假设使用 Youtube 一年增量视频数据对 5000 亿大模型完成一遍训练对应的算力需求为 500B × 1.24e15 × 6 = 3.72e27 FLOPs。以英伟达 H100 为例,在 FP16 精度下算力为 1979 TFLOPS,仍假设芯片利用率为 46.2%,则 3.72e27 FLOPs/(1979 TFLOPs × 46.2% × 3600s ×24h/天 × 30 天/月)= 156.98 万张 H100/月,即完成对视频数据的训练需使用 156.98 万张 H100
[国信证券]:多模态AI大模型点评:OpenAI发布首款文生视频大模型Sora,训练算力需求大幅提升,点击即可下载。报告格式为PDF,大小0.82M,页数6页,欢迎下载。
