传媒行业专题研究：Vidu-国内AI视频生成模型新突破

免责声明和披露以及分析师声明是报告的一部分，请务必一起阅读。 1 传媒 Vidu-国内 AI 视频生成模型新突破华泰研究传媒增持 (维持) 研究员朱珺 SAC No. S0570520040004 SFC No. BPX711 zhujun016731@htsc.com +(86) 10 6321 1166 研究员吴珺 SAC No. S0570523100001 wujun023190@htsc.com +(86) 755 8249 2388 行业走势图资料来源：Wind，华泰研究重点推荐股票名称股票代码目标价 (当地币种) 投资评级昆仑万维 300418 CH 50.09 买入捷成股份 300182 CH 6.16 买入光线传媒 300251 CH 13.60 买入资料来源：华泰研究预测 2024 年 5 月 09 日│中国内地专题研究全球 AI 大模型持续迭代，持续看好视频等多模态发展前景今年以来，全球 AI 大模型端都持续迭代升级，包括海外的 Sora、Llama3等，国内的 Kimi、昆仑天工 AI、阶跃星辰等。4 月 27 日，北京生数科技有限公司联合清华大学发布了中国首个长时长、高一致性、高动态性视频大模型 Vidu。行业的发展进度有望不断催化传媒相关板块的发展，我们看好：1）AI 视频大模型依赖多样化训练数据，高质量视频素材库价值凸显；2）AI 大模型助力应用场景发展。我们推荐：昆仑万维、光线传媒、捷成股份、值得买。其他产业链标的包括华策影视、中文在线、中广天择、掌阅科技等。 Vidu：国内 AI 视频生成模型新突破 Vidu 采用了团队原创的 Diffusion 与 Transformer 融合的架构 U-ViT，能够一键生成长达 16 秒、分辨率达到 1080P 的高清视频内容，其拥有丰富的想象力，能够模拟真实物理世界，并具备多镜头生成、时空一致性高等特点。核心团队来源于清华大学人工智能团队，首席科学家为清华人工智能研究院副院长朱军。公司的多模态大模型为全栈自研，能够融合文本、图像、3D、视频等多模态信息。除文生视频外，公司在文生图、3D 生成等多模态能力上均有所造诣。 Vidu 快速进化，与 Sora 差距不断缩小 2024 年 1 月，生数团队实现 4 秒视频的生成，已可以达到 Pika、Runway的效果，至 3 月底实现 8 秒视频生成，4 月实现 16 秒视频生成，在 3 个月内生成时长提升至 4 倍，且据 4 月 27 日中关村论坛中生数领军人朱军的发言，Vidu 会以更快的速度迭代，与 Sora 差距将越来越小。Vidu 生成视频的运动幅度较大。除 Sora 外，目前文/图生视频较难做到让人物做出复杂动作，因此为了保证画面畸变最小，视频生成的策略为选择小幅度的运动，较难设计复杂动作，难以处理场景和人物的一致性问题。Vidu 在保证了时空一致性的前提下运动幅度较大。分辨率赶上第一梯队，但仍为固定比例尺寸。 Vidu 模型使用 U-ViT 架构，多模态、效果好、成本低在 U-ViT 前，Diffusion 模型中的主流主干（backbone）一直为基于 CNN 的U-Net。U-ViT 是生数科技团队设计的一种简单通用的、基于 ViT 的架构，使用 Diffusion 生成图像，打响了扩散模型中 CNN 被 Transformer 取代的第一枪。模型首先对输入图像进行分割处理（分割为 patch），与时间和条件一道表示为 token 后通过 Embedding 层，随后经过 Transformer Block 后输出为 token，并通过一个线性层转为图块，最后通过一个可选的 3X3 卷积层输出为最终结果。此外，U-ViT 成本优势大幅领先，主要得益于 ViT 架构的训练成本较低。风险提示：竞争加剧，模型发展进度低于预期，政策监管风险等。 (38)(26)(14)(2)10May-23Sep-23Jan-24May-24(%)传媒沪深300 免责声明和披露以及分析师声明是报告的一部分，请务必一起阅读。 2 传媒正文目录 Vidu：国内 AI 视频生成模型新突破 ............................................................................................................................. 3 明星创业公司，中国视频大模型重大突破............................................................................................................. 3 团队核心成员来自清华团队，已实现三轮融资 ..................................................................................................... 3 多模态布局，涵盖图片、视频、3D 等领域 ........................................................................................................... 4 视频模型横向比较：Vidu 快速进化，与 Sora 差距不断缩小 ............................................................................... 5 Vidu 模型：U-ViT，多模态、效果好、成本低 ............................................................................................................. 9 理论端：自 ViT 诞生后，CV 与 NLP 再无阻隔 ..................................................................................................... 9 应用端：U-ViT 架构受 U-Net 启发，为图像生成而来 ........................................................................................ 10 结构：向 U-NeT 拜师学艺，换下 CNN、换上 Transformer，为图像生成而来 ......................................... 10 结果：质量与 U-Net 不分伯仲，成本优势大幅领先 ...................................................................

立即下载

互联网

2024-05-13

华泰证券

23页

2.94M

[华泰证券]:传媒行业专题研究：Vidu-国内AI视频生成模型新突破，点击即可下载。报告格式为PDF，大小2.94M，页数23页，欢迎下载。

本报告共23页，只提供前10页预览，清晰完整版报告请下载后查看，喜欢就下载吧！

立即下载

本报告共23页，只提供前10页预览，清晰完整版报告请下载后查看，喜欢就下载吧！

立即下载

水滴研报所有报告均是客户上传分享，仅供网友学习交流，未经上传用户书面授权，请勿作商用。

传媒行业专题研究：Vidu-国内AI视频生成模型新突破

关于我们

联系我们

传媒行业专题研究：Vidu-国内AI视频生成模型新突破

关于我们

联系我们

小程序

公众号