计算机：Sora实现文生视频跨越式突破，AIGC持续正反馈

1 行业报告│行业点评研究请务必阅读报告末页的重要声明计算机 Sora 实现文生视频跨越式突破，AIGC 持续正反馈 ➢ 行业事件：美国时间 2024 年 2 月 15 日，OpenAI 发布文生视频模型 Sora；谷歌推出最新 Gemini 1.5 Pro 模型。 ➢ 视频生成模型 Sora 实现众多突破 OpenAI 发布了文生视频大模型 Sora，可根据简短提示词，生成长达 60s 高清短视频，将此前行业视频生成长度大幅提升。该模型拥有文本到视频，长时生成能力；复杂场景和角色生成能力；语言理解能力；多镜头生成能力；物理世界模拟能力等。Sora 的诞生预示着用户可以省去繁琐冗杂的制作过程，将自我想象力转换为视频作品，有望提升短视频创作效率，加速短视频平台发展。 ➢ Gemini 1.5 Pro 长上下文能力提升谷歌推出 Gemini 1.5，其建立在对于 Transformer 和 MoE 架构的领先研究之上，模型效率极大提升，上下文窗口容量可以在生产环境中运行多达 100万个 token，明显超过现有其他模型。基于长上下文能力提升，Gemini 1.5可对大量信息进行复杂推理，实现更好地多模态理解和推理，高效处理更长代码相关问题。此外在综合性测试中，Gemini 1.5 Pro 仍能保持高水平的性能，与 1.0 Ultra 表现相差无几。长上下文能力的提升，有望进一步扩展大模型应用场景。 ➢ 投资建议 Sora 的发布标志着文生视频领域的跨越式突破，Gemini 1.5 pro 的推出大大提升了长上下文能力。随着技术的进步和应用场景的不断拓展，AIGC 的四个核心要素：数据、算力、模型和应用，正在不断实现正反馈，推动整个行业的创新和发展。建议关注：（1）国产算力基础设施：海光信息、寒武纪-U、中科曙光、浪潮信息、紫光股份、锐捷网络等；（2）视频应用：万兴科技、海康威视、大华股份等；（3）网络安全：国投智能、启明星辰、电科网安等；(4)游戏：巨人网络（传媒互联网行业）、昆仑万维（传媒互联网行业）等；（5）图像应用：美图公司（传媒互联网行业）等。风险提示：AI 技术发展演进不及预期；商业化进程不及预期；法律政策监管风险；行业竞争加剧等。证券研究报告 2024 年 02 月 18 日投资建议：强于大市（维持）上次建议：强于大市相对大盘走势作者分析师：姜青山执业证书编号：S0590523050001 邮箱：jiangqs@glsc.com.cn 分析师：黄楷执业证书编号：S0590522090001 邮箱：huangk@glsc.com.cn 联系人：周砺灵邮箱：zhoull@glsc.com.cn 相关报告 1、《计算机：计算机迎 10 年估值底，中长期投资价值显现》2024.02.08 2、《计算机：重仓持股比例环比下降，AI 个股持仓分化》2024.02.03 -40%-17%7%30%2023/22023/62023/102024/2计算机沪深300请务必阅读报告末页的重要声明 2 行业报告│行业点评研究 1. 视频生成模型 Sora 实现众多突破 1.1 Sora 模型实现众多突破 2 月 16 日，OpenAI 发布了文生视频大模型 Sora，可根据简短提示词，生成长达60s 高清短视频，将此前行业视频生成长度大幅提升。该模型拥有文本到视频，长时生成能力；复杂场景和角色生成能力；语言理解能力；多镜头生成能力；物理世界模拟能力等。Sora 的诞生预示着用户可以省去繁琐冗杂的制作过程，将自我想象力转换为视频作品，有望提升短视频创作效率，加速短视频平台发展。图表1：Sora 可根据文本描述生成长达 60s 的视频资料来源：OpenAI 官网，国联证券研究所 ➢ 文本到视频，长时生成能力 Sora 能够根据用户提供的文本描述生成长达 60s 的视频，这些视频不仅保持了视觉品质，而且完整准确还原了用户的提示语。 ➢ 复杂场景和角色生成能力 Sora 可以生成具有多个角色、特定的运动类型以及细节精准的主题与背景所构建的复杂场景。通过对生动角色以及复杂运镜的应用，视频具有高度真实性和叙事效果。我们认为对于短视频创作行业，制作者可以快速将创意进行视频化，并带来逼真的视觉效果。请务必阅读报告末页的重要声明 3 行业报告│行业点评研究图表2：Sora 发布视频展现复杂场景和角色生成能力资料来源：OpenAI 官网，国联证券研究所 ➢ 深刻语言理解能力 Sora 对语言拥有深刻理解能力，可以准确解释提示并生成可以表达丰富情感、引人注目的角色。我们认为 Sora 对语言的理解能力可以准确的反应用户的指令，从而创作出更加优质的作品。图表3：Sora 发布视频展现语言理解能力资料来源：OpenAI 官网，国联证券研究所 ➢ 多镜头生成能力 Sora 可以在单个生成的视频中创建多个镜头，同时可保持角色与视觉风格的一致性。多镜头生成功能对于影视制作及其他多视角展示作品可起到极大辅助作用。请务必阅读报告末页的重要声明 4 行业报告│行业点评研究图表4：Sora 发布视频展现多镜头生成能力资料来源：OpenAI 官网，国联证券研究所 ➢ 物理世界模拟能力 Sora 不仅可以理解用户在提示中输出的指令，还可以理解所生成的事物在物理世界存在与运行的方式，从而展现了人工智能在理解现实世界并与之互动的能力。Sora 可以模拟真实物理世界的运动，例如物体的移动、习性以及相互作用。图表5：Sora 发布视频展现物理世界模拟能力资料来源：OpenAI 官网，国联证券研究所 ➢ 模型存在一定限制，仍可逐步提升 Sora 的诞生代表着 AI 行业在视频生成领域产生较大突破，但其仍存在一定弱点需逐步改善。Sora 可能难以准确模拟在某些复杂场景中物体的物理特性，并且可能无法理解某些特定的场景物体的因果关系。例如，一个人咬一口饼干，但饼干可能没有咬痕。该模型或可能混淆用户生成指令的空间细节，例如，左右混淆，或可能难以精确描述随时间推移发生的事件，例如遵循特定的相机轨迹。请务必阅读报告末页的重要声明 5 行业报告│行业点评研究图表6：Sora 可能无法理解场景物体的因果关系图表7：Sora 可能无法精确描述事件推移发生的事件资料来源：OpenAI 官网，国联证券研究所资料来源：OpenAI 官网，国联证券研究所 1.2 Sora 采用了扩散模型结合 transformer 过去的研究中，许多团队聚焦于使用递归网络、生成对抗网络、自回归Transformer 和扩散模型等各种方法，对大模型进行学习。这些工作局限于较小类别视觉数据、较短或固定大小的视频上。Sora 作为通用视觉模型，可以生成不同时长、纵横比和分辨率的视频和图像，最多可达一分钟的高清视频。 ➢ 将可视数据转换成数据包（patchs）大语言模型通过 token 将各种形式的文本代码、数学和自然语言统一起来，OpenAI 从中获得灵感，Sora 通过视觉包（patchs）实现了类似的效果。对于不同类型的视频和图像，包

立即下载

电子设备

2024-02-19

国联证券

黄楷,姜青山

16页

1.8M

[国联证券]:计算机：Sora实现文生视频跨越式突破，AIGC持续正反馈，点击即可下载。报告格式为PDF，大小1.8M，页数16页，欢迎下载。

本报告共16页，只提供前10页预览，清晰完整版报告请下载后查看，喜欢就下载吧！

立即下载

本报告共16页，只提供前10页预览，清晰完整版报告请下载后查看，喜欢就下载吧！

立即下载

水滴研报所有报告均是客户上传分享，仅供网友学习交流，未经上传用户书面授权，请勿作商用。

计算机：Sora实现文生视频跨越式突破，AIGC持续正反馈

关于我们

联系我们

计算机：Sora实现文生视频跨越式突破，AIGC持续正反馈

关于我们

联系我们

小程序

公众号