计算机软件行业周报:Sora和Gemini 1.5发布,多模态大模型更进一步

请务必阅读正文之后的免责条款部分 守正 出奇 宁静 致远 行业研究 太平洋证券股份有限公司证券研究报告 2024 年 02 月 19 日 行业周报 看好 / 维持 计算机软件 计算机 Sora 和 Gemini 1.5 发布,多模态大模型更进一步 ◼ 走势比较 ◼ 子行业评级 基 础 软 件 及管 理 办 公 软件 无评级 行 业 应 用 软件 无评级 新 兴 计 算 机软件 无评级 ◼ 推荐公司及评级 相关研究报告 <<2023 年计算机行业业绩预告及基金持仓总结>>--2024-02-05 证券分析师:曹佩 电话: E-MAIL:caopeisz@tpyzq.com 执业资格证书编号:S1190520080001 证券分析师:王景宜 电话: E-MAIL:wangjy@tpyzq.com 执业资格证书编号:S1190523090002 报告摘要 OpenAI 发布视频生成模型 Sora,AI 视频生成迎来里程碑。2 月16 日,OpenAI 宣布推出全新的生成式人工智能模型“Sora”。Sora 是一种通用的视觉数据模型,能够生成各种持续时间、宽高比和分辨率的视频和图片。与此前的视频生成模型相比,Sora 主要实现了以下突破:1)视频时长达到 60 秒:Sora 可以通过文本指令直接输出长达 60 秒的视频,并保持视频主体与背景的高度流畅性与稳定性。2)文本的深度理解能力:Sora 可以准确理解用户的文本指令,无论是复杂的动作场景还是细腻的情感表达,Sora 都能够精确捕捉并展现。3)对真实世界的理解:Sora 对物理规律的遵循程度较高,对于光影反射、运动方式、镜头移动等细节的呈现效果较为逼真。4)长序列连贯性和目标持久性:Sora 能在单个视频中生成同一角色的多个镜头,并在整个视频中保持其外观。即使人、动物和物体被遮挡或离开画面,Sora 模型也能使其保持不变。 谷歌发布 Gemini 1.5 Pro,上下文长度突破百万。2 月 15 日,谷歌宣布了下一代大模型 Gemini 1.5 Pro。Gemini 1.5 Pro 是一种中型多模态模型,针对多种任务的扩展进行了优化,其性能水平与谷歌迄今为止最大的模型 1.0 Ultra 类似,并引入了长上下文理解方面的突破性实验特征。Gemini 1.5 Pro 基于 Transformer 和 MoE 架构建立。MoE 模型分为更小的“专家”神经网络,根据给定输入的类型,MoE模型学会选择性地仅激活其神经网络中最相关的专家路径,这种专业化极大地提高了模型的效率。目前,少数开发人员和企业客户可以通过 AI Studio 和 Vertex AI 的私人预览版在最多 100 万个 token 的上下文窗口中进行尝试,这意味着使用 1.5 Pro 能够一次性处理海量信息,比如 1 小时的视频、11 小时的音频、超过 30,000 行的代码库,或是超过 700,000 个单词。 投资建议:Sora 以及 Gemini 大模型的发布进一步推动了多模态大模型的进步,对于计算机板块而言,仍然从三个角度筛选公司: 1)算法层面,重点关注科大讯飞、云从科技; 2)应用层面,重点关注金山办公、新国都、万兴科技、虹软科技、熵基科技等; 3)算力层面,重点关注海光信息、农尚环境、景嘉微、神州数码、中科曙光、寒武纪、浪潮信息等。 风险提示:技术研发不及预期;下游景气度不及预期;生态建设不及预期;市场竞争加剧。 (50%)(34%)(18%)(2%)14%30%23/2/2023/5/123/7/1023/9/1823/11/2724/2/5计算机软件沪深300 请务必阅读正文之后的免责条款部分 守正 出奇 宁静 致远 行业周报 P2 Sora 和 Gemini 1.5 发布,多模态大模型更进一步 一、 OpenAI 发布视频生成模型 Sora,AI 视频生成迎来里程碑 OpenAI 发布视频生成模型 Sora。2 月 16 日,OpenAI 宣布推出全新的生成式人工智能模型“Sora”。Sora 是一种通用的视觉数据模型,能够生成各种持续时间、宽高比和分辨率的视频和图片。OpenAI 声称,如果给定一段简短或详细的描述或一张静态图片,Sora 就能生成类似电影的1080p 场景,其中包含多个角色、不同类型的动作和背景细节。OpenAI 官方公布了 48 个用 Sora生成的视频示例,充分展示了 Sora 模型的强大能力。 图表1:Sora 生成视频示例 1 图表2:Sora 生成视频示例 2 资料来源:OpenAI 官网,太平洋证券整理 资料来源:OpenAI 官网,太平洋证券整理 与此前的视频生成模型相比,Sora 主要实现了以下突破: ⚫ 视频时长达到 60 秒:不同于此前发布的模型只能生成几秒到十几秒长度的视频,Sora可以通过文本指令直接输出长达 60 秒的视频,并保持视频主体与背景的高度流畅性与稳定性。 ⚫ 对文本的深度理解能力:Sora 可以准确理解用户的文本指令,无论是复杂的动作场景还是细腻的情感表达,Sora 都能够精确捕捉并展现。 ⚫ 对真实世界的理解:Sora 不仅了解用户在提示中要求的内容,还了解这些东西在物理世界中的存在方式,对于光影反射、运动方式、镜头移动等细节的呈现效果较为逼真。 ⚫ 长序列连贯性和目标持久性:Sora 能在单个视频中生成同一角色的多个镜头,并在整个视频中保持其外观。即使人、动物和物体被遮挡或离开画面,Sora 模型也能使其保持不变。 请务必阅读正文之后的免责条款部分 守正 出奇 宁静 致远 行业周报 P3 Sora 和 Gemini 1.5 发布,多模态大模型更进一步 图表3:Sora 与其他视频生成模型效果对比 资料来源:机器之心,太平洋证券整理 ⚫ 多模态输入处理能力:除了文本提示外,Sora 还能够接受静态图像或已有视频作为输入,进行内容的延伸、填充缺失帧或进行风格转换等操作。如可以在两个输入视频之间逐渐进行插值,从而在具有完全不同主题和场景构成的视频之间创建无缝过渡。 图表4:Sora 在两个输入视频之间逐渐进行插值合成新的视频 资料来源:OpenAI 官网,太平洋证券整理 请务必阅读正文之后的免责条款部分 守正 出奇 宁静 致远 行业周报 P4 Sora 和 Gemini 1.5 发布,多模态大模型更进一步 Sora 把视频和图像分解为统一的数据单元 Patch。Sora 首先将不同类型的视觉数据转换成统一的视觉数据表示(视觉 patch),然后将原始视频压缩到一个低维潜在空间,并将视觉表示分解成时空 patch(相当于 Transformer token),让 Sora 在这个潜在空间里进行训练并生成视频。这种统一的数据表示方法能够在更广泛的视觉数据上训练模型,覆盖了不同的持续时间、分辨率和纵横比。 图表5:Sora 将视频数据转换为视觉块(patch) 资料来源:OpenAI 官网,太平洋证券整理 Sora 将 Transformer 和扩散模型相结合。Sora 是一种扩散模型,输入一个噪声 P

立即下载
信息科技
2024-02-19
太平洋
曹佩,王景宜
9页
1.14M
收藏
分享

[太平洋]:计算机软件行业周报:Sora和Gemini 1.5发布,多模态大模型更进一步,点击即可下载。报告格式为PDF,大小1.14M,页数9页,欢迎下载。

本报告共9页,只提供前10页预览,清晰完整版报告请下载后查看,喜欢就下载吧!
立即下载
本报告共9页,只提供前10页预览,清晰完整版报告请下载后查看,喜欢就下载吧!
立即下载
水滴研报所有报告均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。
相关图表
图表6: 申万电子周涨跌幅榜
信息科技
2024-02-19
来源:电子行业周观点:英伟达发布Chat with RTX,关注AI产业链投资机遇
查看原文
图表5: 申万电子行业周成交额情况
信息科技
2024-02-19
来源:电子行业周观点:英伟达发布Chat with RTX,关注AI产业链投资机遇
查看原文
图表4: 申万电子板块估值情况(2019 年至今)
信息科技
2024-02-19
来源:电子行业周观点:英伟达发布Chat with RTX,关注AI产业链投资机遇
查看原文
图表3: 申万电子各子行业涨跌幅
信息科技
2024-02-19
来源:电子行业周观点:英伟达发布Chat with RTX,关注AI产业链投资机遇
查看原文
图表2: 申万一级年涨跌幅(%)
信息科技
2024-02-19
来源:电子行业周观点:英伟达发布Chat with RTX,关注AI产业链投资机遇
查看原文
图表1: 申万一级周涨跌幅(%)
信息科技
2024-02-19
来源:电子行业周观点:英伟达发布Chat with RTX,关注AI产业链投资机遇
查看原文
回顶部
报告群
公众号
小程序
在线客服
收起