传媒行业专题研究:Vidu-国内AI视频生成模型新突破

免责声明和披露以及分析师声明是报告的一部分,请务必一起阅读。 1 传媒 Vidu-国内 AI 视频生成模型新突破 华泰研究 传媒 增持 (维持) 研究员 朱珺 SAC No. S0570520040004 SFC No. BPX711 zhujun016731@htsc.com +(86) 10 6321 1166 研究员 吴珺 SAC No. S0570523100001 wujun023190@htsc.com +(86) 755 8249 2388 行业走势图 资料来源:Wind,华泰研究 重点推荐 股票名称 股票代码 目标价 (当地币种) 投资评级 昆仑万维 300418 CH 50.09 买入 捷成股份 300182 CH 6.16 买入 光线传媒 300251 CH 13.60 买入 资料来源:华泰研究预测 2024 年 5 月 09 日│中国内地 专题研究 全球 AI 大模型持续迭代,持续看好视频等多模态发展前景 今年以来,全球 AI 大模型端都持续迭代升级,包括海外的 Sora、Llama3等,国内的 Kimi、昆仑天工 AI、阶跃星辰等。4 月 27 日,北京生数科技有限公司联合清华大学发布了中国首个长时长、高一致性、高动态性视频大模型 Vidu。行业的发展进度有望不断催化传媒相关板块的发展,我们看好:1)AI 视频大模型依赖多样化训练数据,高质量视频素材库价值凸显;2)AI 大模型助力应用场景发展。我们推荐:昆仑万维、光线传媒、捷成股份、值得买。其他产业链标的包括华策影视、中文在线、中广天择、掌阅科技等。 Vidu:国内 AI 视频生成模型新突破 Vidu 采用了团队原创的 Diffusion 与 Transformer 融合的架构 U-ViT,能够一键生成长达 16 秒、分辨率达到 1080P 的高清视频内容,其拥有丰富的想象力,能够模拟真实物理世界,并具备多镜头生成、时空一致性高等特点。核心团队来源于清华大学人工智能团队,首席科学家为清华人工智能研究院副院长朱军。公司的多模态大模型为全栈自研,能够融合文本、图像、3D、视频等多模态信息。除文生视频外,公司在文生图、3D 生成等多模态能力上均有所造诣。 Vidu 快速进化,与 Sora 差距不断缩小 2024 年 1 月,生数团队实现 4 秒视频的生成,已可以达到 Pika、Runway的效果,至 3 月底实现 8 秒视频生成,4 月实现 16 秒视频生成,在 3 个月内生成时长提升至 4 倍,且据 4 月 27 日中关村论坛中生数领军人朱军的发言,Vidu 会以更快的速度迭代,与 Sora 差距将越来越小。Vidu 生成视频的运动幅度较大。除 Sora 外,目前文/图生视频较难做到让人物做出复杂动作,因此为了保证画面畸变最小,视频生成的策略为选择小幅度的运动,较难设计复杂动作,难以处理场景和人物的一致性问题。Vidu 在保证了时空一致性的前提下运动幅度较大。分辨率赶上第一梯队,但仍为固定比例尺寸。 Vidu 模型使用 U-ViT 架构,多模态、效果好、成本低 在 U-ViT 前,Diffusion 模型中的主流主干(backbone)一直为基于 CNN 的U-Net。U-ViT 是生数科技团队设计的一种简单通用的、基于 ViT 的架构,使用 Diffusion 生成图像,打响了扩散模型中 CNN 被 Transformer 取代的第一枪。模型首先对输入图像进行分割处理(分割为 patch),与时间和条件一道表示为 token 后通过 Embedding 层,随后经过 Transformer Block 后输出为 token,并通过一个线性层转为图块,最后通过一个可选的 3X3 卷积层输出为最终结果。此外,U-ViT 成本优势大幅领先,主要得益于 ViT 架构的训练成本较低。 风险提示:竞争加剧,模型发展进度低于预期,政策监管风险等。 (38)(26)(14)(2)10May-23Sep-23Jan-24May-24(%)传媒沪深300 免责声明和披露以及分析师声明是报告的一部分,请务必一起阅读。 2 传媒 正文目录 Vidu:国内 AI 视频生成模型新突破 ............................................................................................................................. 3 明星创业公司,中国视频大模型重大突破............................................................................................................. 3 团队核心成员来自清华团队,已实现三轮融资 ..................................................................................................... 3 多模态布局,涵盖图片、视频、3D 等领域 ........................................................................................................... 4 视频模型横向比较:Vidu 快速进化,与 Sora 差距不断缩小 ............................................................................... 5 Vidu 模型:U-ViT,多模态、效果好、成本低 ............................................................................................................. 9 理论端:自 ViT 诞生后,CV 与 NLP 再无阻隔 ..................................................................................................... 9 应用端:U-ViT 架构受 U-Net 启发,为图像生成而来 ........................................................................................ 10 结构:向 U-NeT 拜师学艺,换下 CNN、换上 Transformer,为图像生成而来 ......................................... 10 结果:质量与 U-Net 不分伯仲,成本优势大幅领先 ...................................................................

立即下载
互联网
2024-05-13
华泰证券
23页
2.94M
收藏
分享

[华泰证券]:传媒行业专题研究:Vidu-国内AI视频生成模型新突破,点击即可下载。报告格式为PDF,大小2.94M,页数23页,欢迎下载。

本报告共23页,只提供前10页预览,清晰完整版报告请下载后查看,喜欢就下载吧!
立即下载
本报告共23页,只提供前10页预览,清晰完整版报告请下载后查看,喜欢就下载吧!
立即下载
水滴研报所有报告均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。
相关图表
腾讯音乐、网易云音乐2023年财务数据比较
互联网
2024-05-13
来源:互联网、传媒行业2023、24Q1业绩总结:分化明显,提升回购分红
查看原文
爱优腾芒2023年经营财务数据比较
互联网
2024-05-13
来源:互联网、传媒行业2023、24Q1业绩总结:分化明显,提升回购分红
查看原文
2012-2023年 分众传媒广告主结构变化(%)图:1Q17-1Q24 分众传媒毛利率及归母净利润率(%)
互联网
2024-05-13
来源:互联网、传媒行业2023、24Q1业绩总结:分化明显,提升回购分红
查看原文
1Q20-4Q23 主要广告公司广告收入同比增速(%)
互联网
2024-05-13
来源:互联网、传媒行业2023、24Q1业绩总结:分化明显,提升回购分红
查看原文
24Q1国有出版集团经营情况、所得税情况(亿元,%)
互联网
2024-05-13
来源:互联网、传媒行业2023、24Q1业绩总结:分化明显,提升回购分红
查看原文
国有出版集团股息率、历史分红比例(对应2024年4月30日收盘市值)
互联网
2024-05-13
来源:互联网、传媒行业2023、24Q1业绩总结:分化明显,提升回购分红
查看原文
回顶部
报告群
公众号
小程序
在线客服
收起