人工智能行业跟踪报告:OpenAI发布文生视频模型Sora,有望开启算力需求新空间
证券研究报告 事件点评 OpenAI 发布文生视频模型 Sora,有望开启算力需求新空间 ——人工智能行业跟踪报告 [Table_Rating] 增持(维持) [Table_Summary] ◼ 主要观点 2024年2月16日,OpenAI公布了名为“Sora”的人工智能模型。该模型可根据用户的文本提示快速制作长达一分钟的视频,据OpenAI介绍,Sora所制作的视频可以呈现“具有多个角色、特定类型的动作,包含主题和背景细节的复杂场景”。 相比于Runway、Pika等厂商推出的文生视频模型,Sora在分辨率、生成视频长度等技术指标上有明显进步:Runway推出的Gen-2、Pika推出的Pika 1.0等模型生成视频长度均在10秒以内,Sora则支持生成长达60秒的视频,同时具备向前和向后的视频扩展能力。 我们认为: Sora模型的推出是对文生视频技术的一次突破,有望提高文生视频模型的使用率,扩展文生视频模型在影视创作等领域的应用场景。同时,Sora模型的参数量据估算较Gen-2等模型有较大幅度的上升,其推理需求的快速增长也有望对以光模块为代表的算力供应链形成新的增量空间。 ◼ 投资建议 建议关注: 中际旭创:中高端数通市场龙头,2022年与II-VI并列光模块业务营收全球第一。根据iFinD机构一致预期,截至2024年2月22日,公司2024年的预测PE为30倍,位于近五年的90%分位。 天孚通信:光器件整体解决方案提供商。根据iFinD机构一致预期,截至2024年2月22日,公司2024年的预测PE为45倍,位于近五年的98%分位。 新易盛:光模块领域龙头,成本管控优秀,具备切入增量云计算/AI客户的能力。根据iFinD机构一致预期,截至2024年2月22日,公司2024年的预测PE为33倍,位于近五年的90%分位。 ◼ 风险提示 下游需求不及预期;人工智能技术落地和商业化不及预期;产业政策转变;宏观经济不及预期等。 [Table_Industry] 行业: 计算机 日期: shzqdatemark [Table_Author] 分析师: 刘京昭 SAC 编号: S0870523040005 [Table_QuotePic] 最近一年行业指数与沪深 300 比较 -21%-14%-7%0%7%14%21%28%35%01/2303/2306/2308/2310/2301/24计算机沪深3002024年02月27日 事件点评 请务必阅读尾页重要声明 2 目 录 1 Sora 模型性能优异,有望开拓文生视频应用新场景 .................. 3 2 风险提示 ..................................................................................... 5 图 图 1:Sora 可能使用了 Transformer 架构的 Diffusion 扩散模型 ................................................................................ 3 图 2:OpenAI 将不同尺寸、分辨率的视频拆分成 patch 进行训练 ................................................................................. 4 表 表 1:Sora 在多项技术指标上有所突破 ................................ 3 表 2:人工智能领域相关公司对比 ......................................... 4 事件点评 请务必阅读尾页重要声明 3 1 Sora 模型性能优异,有望开拓文生视频应用新场景 2024 年 2 月 16 日,OpenAI 公布了名为“Sora”的人工智能模型。该模型可根据用户的文本提示快速制作长达一分钟的视频,据 OpenAI 介绍,Sora 所制作的视频可以呈现“具有多个角色、特定类型的动作,包含主题和背景细节的复杂场景”。 相比于 Runway、Pika 等厂商推出的文生视频模型,Sora 在分辨率、生成视频长度等技术指标上有明显进步:Runway 推出的Gen-2、Pika 推出的 Pika 1.0 等模型生成视频长度均在 10 秒以内,Sora 则支持生成长达 60 秒的视频,同时具备向前和向后的视频扩展能力。 表 1:Sora 在多项技术指标上有所突破 开发厂商 模型名称 视频长度 帧数 分辨率 Runway Gen-2 4s 24Fps 1024×1792 Pika Labs Pika 1.0 3s 24Fps 768×768 Meta Emu Video 4s 16Fps 512×512 Google Lumiere 4s-5s 16Fps-24Fps 1024×1024 NVIDIA PYOCO 4.75s 16Fps 1024×1024 OpenAI Sora 60s 30Fps 2048×2048 资料来源:EMU VIDEO: Factorizing Text-to-Video Generation by Explicit Image Conditioning,techovedas,OpenAI,NVIDIA,IT 之家,上海证券研究所 据 OpenAI 介绍,Sora 模型属于扩散型 Transformer 模型(Diffusion Transformer Model),其训练过程借鉴了此前 GPT、DALL·E 3 等模型的训练经验,包括采用了 DALL·E 3 训练中使用的重新字幕技术,为训练数据生成描述数据内容的标题。 图 1:Sora 可能使用了 Transformer 架构的 Diffusion 扩散模型 资料来源:OpenAI,上海证券研究所 事件点评 请务必阅读尾页重要声明 4 GPT 等大语言模型(LLM)进行训练时,通常将数据集中的语句拆分为tokens,再置于Transformer框架下进行训练。在Sora的训练过程中,OpenAI 将不同尺寸、分辨率的视频拆分成 Patch,由此将视频压缩到低维空间,再将 Patch 视作 Tokens 置于Transformer 框架下进行训练。训练完成后再通过解码,将 Tokens“渲染成”视频中的像素。 图 2:OpenAI 将不同尺寸、分辨率的视频拆分成 patch 进行训练 资料来源:ModelScope,上海证券研究所 在工程中,往往采用将时间 Attention 和空间 Attention 分离的做法,降低 Transformer 需要处理的 Tokens 长度,从而降
[上海证券]:人工智能行业跟踪报告:OpenAI发布文生视频模型Sora,有望开启算力需求新空间,点击即可下载。报告格式为PDF,大小0.49M,页数6页,欢迎下载。
