计算机软件行业周报：Sora和Gemini 1.5发布，多模态大模型更进一步

请务必阅读正文之后的免责条款部分守正出奇宁静致远行业研究太平洋证券股份有限公司证券研究报告 2024 年 02 月 19 日行业周报看好 / 维持计算机软件计算机 Sora 和 Gemini 1.5 发布，多模态大模型更进一步 ◼ 走势比较 ◼ 子行业评级基础软件及管理办公软件无评级行业应用软件无评级新兴计算机软件无评级 ◼ 推荐公司及评级相关研究报告 <<2023 年计算机行业业绩预告及基金持仓总结>>--2024-02-05 证券分析师：曹佩电话： E-MAIL：caopeisz@tpyzq.com 执业资格证书编号：S1190520080001 证券分析师：王景宜电话： E-MAIL：wangjy@tpyzq.com 执业资格证书编号：S1190523090002 报告摘要 OpenAI 发布视频生成模型 Sora，AI 视频生成迎来里程碑。2 月16 日，OpenAI 宣布推出全新的生成式人工智能模型“Sora”。Sora 是一种通用的视觉数据模型，能够生成各种持续时间、宽高比和分辨率的视频和图片。与此前的视频生成模型相比，Sora 主要实现了以下突破：1）视频时长达到 60 秒：Sora 可以通过文本指令直接输出长达 60 秒的视频，并保持视频主体与背景的高度流畅性与稳定性。2）文本的深度理解能力：Sora 可以准确理解用户的文本指令，无论是复杂的动作场景还是细腻的情感表达，Sora 都能够精确捕捉并展现。3）对真实世界的理解：Sora 对物理规律的遵循程度较高，对于光影反射、运动方式、镜头移动等细节的呈现效果较为逼真。4）长序列连贯性和目标持久性：Sora 能在单个视频中生成同一角色的多个镜头，并在整个视频中保持其外观。即使人、动物和物体被遮挡或离开画面，Sora 模型也能使其保持不变。谷歌发布 Gemini 1.5 Pro，上下文长度突破百万。2 月 15 日，谷歌宣布了下一代大模型 Gemini 1.5 Pro。Gemini 1.5 Pro 是一种中型多模态模型，针对多种任务的扩展进行了优化，其性能水平与谷歌迄今为止最大的模型 1.0 Ultra 类似，并引入了长上下文理解方面的突破性实验特征。Gemini 1.5 Pro 基于 Transformer 和 MoE 架构建立。MoE 模型分为更小的“专家”神经网络，根据给定输入的类型，MoE模型学会选择性地仅激活其神经网络中最相关的专家路径，这种专业化极大地提高了模型的效率。目前，少数开发人员和企业客户可以通过 AI Studio 和 Vertex AI 的私人预览版在最多 100 万个 token 的上下文窗口中进行尝试，这意味着使用 1.5 Pro 能够一次性处理海量信息，比如 1 小时的视频、11 小时的音频、超过 30,000 行的代码库，或是超过 700,000 个单词。投资建议：Sora 以及 Gemini 大模型的发布进一步推动了多模态大模型的进步，对于计算机板块而言，仍然从三个角度筛选公司： 1）算法层面，重点关注科大讯飞、云从科技； 2）应用层面，重点关注金山办公、新国都、万兴科技、虹软科技、熵基科技等； 3）算力层面，重点关注海光信息、农尚环境、景嘉微、神州数码、中科曙光、寒武纪、浪潮信息等。风险提示：技术研发不及预期；下游景气度不及预期；生态建设不及预期；市场竞争加剧。 (50%)(34%)(18%)(2%)14%30%23/2/2023/5/123/7/1023/9/1823/11/2724/2/5计算机软件沪深300 请务必阅读正文之后的免责条款部分守正出奇宁静致远行业周报 P2 Sora 和 Gemini 1.5 发布，多模态大模型更进一步一、 OpenAI 发布视频生成模型 Sora，AI 视频生成迎来里程碑 OpenAI 发布视频生成模型 Sora。2 月 16 日，OpenAI 宣布推出全新的生成式人工智能模型“Sora”。Sora 是一种通用的视觉数据模型，能够生成各种持续时间、宽高比和分辨率的视频和图片。OpenAI 声称，如果给定一段简短或详细的描述或一张静态图片，Sora 就能生成类似电影的1080p 场景，其中包含多个角色、不同类型的动作和背景细节。OpenAI 官方公布了 48 个用 Sora生成的视频示例，充分展示了 Sora 模型的强大能力。图表1：Sora 生成视频示例 1 图表2：Sora 生成视频示例 2 资料来源：OpenAI 官网，太平洋证券整理资料来源：OpenAI 官网，太平洋证券整理与此前的视频生成模型相比，Sora 主要实现了以下突破： ⚫ 视频时长达到 60 秒：不同于此前发布的模型只能生成几秒到十几秒长度的视频，Sora可以通过文本指令直接输出长达 60 秒的视频，并保持视频主体与背景的高度流畅性与稳定性。 ⚫ 对文本的深度理解能力：Sora 可以准确理解用户的文本指令，无论是复杂的动作场景还是细腻的情感表达，Sora 都能够精确捕捉并展现。 ⚫ 对真实世界的理解：Sora 不仅了解用户在提示中要求的内容，还了解这些东西在物理世界中的存在方式，对于光影反射、运动方式、镜头移动等细节的呈现效果较为逼真。 ⚫ 长序列连贯性和目标持久性：Sora 能在单个视频中生成同一角色的多个镜头，并在整个视频中保持其外观。即使人、动物和物体被遮挡或离开画面，Sora 模型也能使其保持不变。请务必阅读正文之后的免责条款部分守正出奇宁静致远行业周报 P3 Sora 和 Gemini 1.5 发布，多模态大模型更进一步图表3：Sora 与其他视频生成模型效果对比资料来源：机器之心，太平洋证券整理 ⚫ 多模态输入处理能力：除了文本提示外，Sora 还能够接受静态图像或已有视频作为输入，进行内容的延伸、填充缺失帧或进行风格转换等操作。如可以在两个输入视频之间逐渐进行插值，从而在具有完全不同主题和场景构成的视频之间创建无缝过渡。图表4：Sora 在两个输入视频之间逐渐进行插值合成新的视频资料来源：OpenAI 官网，太平洋证券整理请务必阅读正文之后的免责条款部分守正出奇宁静致远行业周报 P4 Sora 和 Gemini 1.5 发布，多模态大模型更进一步 Sora 把视频和图像分解为统一的数据单元 Patch。Sora 首先将不同类型的视觉数据转换成统一的视觉数据表示（视觉 patch），然后将原始视频压缩到一个低维潜在空间，并将视觉表示分解成时空 patch（相当于 Transformer token），让 Sora 在这个潜在空间里进行训练并生成视频。这种统一的数据表示方法能够在更广泛的视觉数据上训练模型，覆盖了不同的持续时间、分辨率和纵横比。图表5：Sora 将视频数据转换为视觉块（patch）资料来源：OpenAI 官网，太平洋证券整理 Sora 将 Transformer 和扩散模型相结合。Sora 是一种扩散模型，输入一个噪声 P

立即下载

信息科技

2024-02-19

太平洋

曹佩,王景宜

9页

1.14M

[太平洋]:计算机软件行业周报：Sora和Gemini 1.5发布，多模态大模型更进一步，点击即可下载。报告格式为PDF，大小1.14M，页数9页，欢迎下载。

本报告共9页，只提供前10页预览，清晰完整版报告请下载后查看，喜欢就下载吧！

立即下载

本报告共9页，只提供前10页预览，清晰完整版报告请下载后查看，喜欢就下载吧！

立即下载

水滴研报所有报告均是客户上传分享，仅供网友学习交流，未经上传用户书面授权，请勿作商用。

计算机软件行业周报：Sora和Gemini 1.5发布，多模态大模型更进一步

关于我们

联系我们

计算机软件行业周报：Sora和Gemini 1.5发布，多模态大模型更进一步

关于我们

联系我们

小程序

公众号