电子行业点评报告：Sora重磅发布，AI生成视频迎巨大创新

请务必阅读正文之后的重要声明部分、 Sora 重磅发布，AI 生成视频迎巨大创新行业名称电子证券研究报告/行业点评报告 2024 年 02 月 18 日 [Table_Main] 评级：增持（维持）分析师：王芳执业证书编号：S0740521120002 Email：wangfang02@zts.com.cn 分析师：杨旭执业证书编号：S0740521120001 Email：yangxu01@zts.com.cn 分析师：李雪峰执业证书编号： S0740522080004 Email：lixf05@zts.com.cn [Table_Profit] 基本状况上市公司数 448 行业总市值(亿元) 58,178 行业流通市值(亿元) 28,368 [Table_QuotePic] 行业-市场走势对比公司持有该股票比例 [Table_Report] 相关报告【中泰电子】大华股份：多模态推动视觉龙头厂商迎智慧化升级【中泰电子】 ChatGPT 引发算力革命，AI 芯片产业链有望率先受益 [Table_Finance] 重点公司基本状况简称股价 (元) EPS PE PEG 评级 2021 2022 2023E 2024E 2021 2022 2023E 2024E 大华股份 18 1.0 0.7 2.2 1.3 17 25 8 14 0.03 买入寒武纪-U 115 -2.0 -3.2 -2.1 -1.3 -58 -36 -56 -86 1.6 买入通富微电 22 0.6 0.3 0.1 0.5 34 62 204 41 -2.9 买入工业富联 16 1.0 1.0 1.1 1.4 16 16 14 11 1.5 买入海康威视 34 1.8 1.5 1.5 1.7 19 23 22 19 5.4 买入沪电股份 25 0.6 0.7 0.8 1.0 45 35 32 24 2.9 买入兴森科技 11 0.4 0.3 0.1 0.3 30 39 84 42 -1.6 买入备注：股价为 2024 年 2 月 8 日收盘价。 [Table_Summary] 投资要点 ◼ 事件：北京时间 2 月 16 日凌晨，OpenAI 发布旗下首个文生视频模型 Sora。Sora 可以直接输出长达 60 秒的视频，并且包含高度细致的背景、复杂的多角度镜头，以及富有情感的多个角色，对语言有深刻理解，能够准确领会用户的提示。 ◼ OpenAI 发布首个文生视频模型 Sora。Sora 是基于 difussion 扩散的 transformer 模型，凭借其强大的通用视觉数据处理，可以生成跨越不同持续时间、纵横比和分辨率的图像视频，最多可以连续生成 60 秒（一分钟）的高清视频。Sora 是 OpenAI 在 GPT-4 及 DALL-E 等语言和图像模型的基础上进一步的创新突破，该模型能够从类似于静态噪音的视频开始，逐渐去除噪音生成视频。此外，该模型能够生成包含多个角色、特定类型运动和主体及背景精确细节的复杂场景，能在单个生成的视频中创建多个镜头，使角色和视觉风格保持准确一致。 ◼ 训练采样灵活，打破此前扩散模型局限性。Sora 采用的是 DALL·E 3 的重标注技术，通过为视觉训练数据生成详细描述的标题，使模型更加准确地遵循用户的文本指令生成视频。Sora 还能够为现有图片赋予动态效果或延伸视频内容的长度。Sora 的灵感来自于语言模型，参照 LLM 的文本标记方法，Sora 采用了视觉补丁方法，即把用于训练的图片、视频压缩为多个 patch，把 patch 作为 token 进行训练，而非在图像域上进行训练，因此无需对视频的大小、时长进行限定、裁剪，训练端不会接受到残缺数据。 ◼ 跨时代文生视频模型，有望推动硬件需求进一步提升。Sora 基于图片做长视频生成，再基于生成视频做 extend，其所需 token 数量相较于文本及图片模型的推理，有望成数量级增长，我们判断 Sora 将刺激推理算力需求将持续上升。此外，推理端 token 增加、算力需求的增长，也对显存及带宽提出更高要求，预计将拉升 400G 光通信技术在以太网中的应用，并有望推动 800G 乃至 1.6T 光通信技术的应用。 ◼ 投资建议：建议关注 AI 大模型发展带来的产业链机遇 1）算力产业链：通富微电、工业富联、沪电股份、寒武纪、海光信息； 2）存储：香农芯创、兆易创新、东芯股份、普冉股份； 3）AI 多模态：大华股份、海康威视； 4）先进封装：通富微电、长电科技、兴森科技、华海诚科、赛腾股份等。 ◼ 风险提示：需求不及预期、产能瓶颈的束缚、大陆厂商技术进步不及预期、中美贸易摩擦加剧、研报使用的信息更新不及时。请务必阅读正文之后的重要声明部分 - 2 - 行业点评报告一、Sora：突破性的文生视频模型 ◼ Sora 是基于 difussion 扩散的 transformer 模型。Sora 凭借其强大的通用视觉数据处理，可以生成跨越不同持续时间、纵横比和分辨率的图像视频，最多可以连续生成 60 秒（一分钟）的高清视频。Sora 是 OpenAI在 GPT-4 及 DALL-E 等语言和图像模型的基础上进一步的创新突破，该模型能够从类似于静态噪音的视频开始，逐渐去除噪音生成视频。此外，该模型能够生成包含多个角色、特定类型运动和主体及背景精确细节的复杂场景，能在单个生成的视频中创建多个镜头，使角色和视觉风格保持准确一致。 ◼ 基于 DALL·E 3 和 GPT，增强语言理解能力。Sora 采用了两种方式来增强模型语言理解能力： 1）基于 DALL·E 3 训练 captioner 模型（给定图片/视频生成字幕），而后将该 captioner 模型用于为训练集中所有视频生成字幕； 2）基于 GPT 将用户提示转换为更详细的描述性字幕，而后发送给 Sora。基于以上两种方式打造的视频生成类 AI 大模型，能够显著增强应用中的文本保真度和视频整体质量。图表 1：Sora 全新技术路径来源：Sora 技术报告，中泰证券研究所 ◼ Sora 的灵感来自于语言模型，参照 LLM 的文本标记方法，Sora 采用了视觉补丁方法，即把用于训练的图片、视频压缩为多个 patch，把 patch作为 token 进行训练，而非在图像域上进行训练。 ◼ 训练采样灵活，推理取景全面。公司自行重新训练 Visual encoder，能够从空间和时间两个维度对图片/视频进行压缩，此时不同的图片和视频在用于训练时的区别仅在于 patch 数量的多少，而无需对视频的大小、时长进行限定、裁剪，训练端不会接受到残缺数据。目前 Sora 可以对宽屏 1920x1080p 视频、垂直 1080x1920 视频以及介于两者之间的所有视频进行采样，进而在推理端生成视频时，取景全面，不受尺寸限制，且最长支持 1 分钟视频生成。请务必阅读正文之后的重要声明部分 - 3 - 行业点评报告图表 2：主流技术训练生成视频取景（左）和 Sora 生成视频取景（右）来

立即下载

信息科技

2024-02-19

中泰证券

王芳,杨旭,李雪峰

9页

1.16M

[中泰证券]:电子行业点评报告：Sora重磅发布，AI生成视频迎巨大创新，点击即可下载。报告格式为PDF，大小1.16M，页数9页，欢迎下载。

本报告共9页，只提供前10页预览，清晰完整版报告请下载后查看，喜欢就下载吧！

立即下载

本报告共9页，只提供前10页预览，清晰完整版报告请下载后查看，喜欢就下载吧！

立即下载

水滴研报所有报告均是客户上传分享，仅供网友学习交流，未经上传用户书面授权，请勿作商用。

电子行业点评报告：Sora重磅发布，AI生成视频迎巨大创新

关于我们

联系我们

电子行业点评报告：Sora重磅发布，AI生成视频迎巨大创新

关于我们

联系我们

小程序

公众号