AI应用行业系列报告:AI视频生成,商业化加速,国产厂商表现亮眼
证券分析师: 李典邮箱: lidian@gyzq.com.cnSAC执业资格证书编码:S0020516080001联系人: 郜子娴邮箱:gaozixian@gyzq.com.cn 证券研究报告 2025年6月27日传媒行业AI视频生成:商业化加速,国产厂商表现亮眼——AI应用系列报告投资评级推荐维持请务必阅读正文之后的免责条款部分报告要点2 技术路径:从GAN-Transformer-Diffusion Model-DiT,技术演进推动行业进入可商用阶段:20世纪90年代以来,AI视频生成持续迭代,经历了多个关键技术的突破,经历了从静态图像序列拼接成视频流-GAN-Transformer-Diffusion Model-DiT的技术演进,生成内容丰富度以及可控性持续提升。Sora验证了Diffusion和Transformer结合的有效性,并带动DiT架构逐渐成为当前重点方向。 行业进入商业化发展快轨,根据Fortune Business Insights预计2032年全球规模突破184亿人民币。根据Fortune Business Insights测算,2024年AI视频生成全球规模为6.15亿美金,预计到2032年达到25.63亿美金,2025至2032年的复合增速为20%。AI视频生成产业规模受到价格以及模型能力的双重驱动。价格方面,目前国内外主流模型的API单秒价格在0.2-1元/秒,根据量子位智库测算,顶级动画电影制作成本约为十万元级/秒,本土动画电影制作成本在万元级/秒,本土TVC视频制作成本在千元级/秒,不论是对比广告视频或者影视剧/电影的单秒成本,AI视频生成均具有极大成本替代优势。另一方面模型能力持续突破,如时长方面Veo2支持理论最高2分钟的4K视频生成,可灵大师版可以通过续写方式将视频延长至3分钟。生成速度方面,以Seedance1.0为例,根据官方数据,对于 5秒 1080p 分辨率的视频生成任务,实测推理耗时 41.4 秒(基于 L20 测试),效率大大提升。生成质量方面,现阶段AI生成视频常常需要“抽卡”,用户需反复尝试,才能生成相对理想结果,随着产品迭代,“抽卡率”有望降低。丰富度方面,声音内容陆续添加,如Veo3通过将视频像素转化为语义信号,实时生成匹配的视频声音,大大增强了视频生成可用性。下游应用来看,2B下游应用包括影视内容创作、商业广告、电商营销、城市文旅、动画教育、游戏娱乐等,应用场景多元化。2C方面,创意玩法持续拉近产品与C端用户距离,内容持续破圈。 竞争格局方面,可灵等国产厂商表现突出。从模型表现来看,根据Artificial Analysis ,Seedance1.0、Veo2/3、Kling2.0、Sora、MiniMax产品表现居前,国内模型水平达到全球领先水平。从商业化来看,根据The Information,Runway24年12月ARR达到8400万美金,25年底ARR冲击2.65亿美金;可灵2025年3月年化收入运行率突破1亿美金,4月及5月单月付费金额均突破1亿人民币,二者商业化表现突出。在使用量和访问量维度来看,Kling、Sora、Veo、Hailuo、PixVerse等表现居前。 投资建议及相关标的。我们看好AI视频生成行业发展,产品可用性持续提升,商业化进入发展快轨。重点关注:快手(1024.HK)以及美图公司(1357.HK)(未覆盖)。 风险提示:产品推广不及预期的风险;AI技术发展不及预期的风险;监管趋严的风险;算力瓶颈的风险;AI视频技术迭代不及预期的风险;商业化不及预期的风险;AI生成内容的版权风险请务必阅读正文之后的免责条款部分目录31. 技术路径:从GAN-Transformer-Diffusion Model-DiT2. AI视频生成行业:逐步进入可商用阶段,应用及商业化加速3. 投资建议及相关标的4. 风险提示请务必阅读正文之后的免责条款部分1.技术路径:从GAN-Transformer-Diffusion Model-DiT4 技术路径探索,从图像拼接生成-GAN-Transformer-Diffusion Model-DiT:相比于图片生成视频生成更为复杂,若按帧率24帧/秒,一条5秒的视频就百余张图像合成,同时视频生成还需要考虑时序连贯性、空间一致性等问题。20世纪90年代以来,AI视频生成持续迭代,经历了多个关键技术的突破,经历了从静态图像序列拼接成视频流-GAN-Transformer-Diffusion Model-DiT的技术演进,生成内容丰富度以及可控性持续提升。图:AI视频生成技术路径探索数据来源:量子位《2024年AI视频生成研究报告》,国元证券研究所请务必阅读正文之后的免责条款部分1.技术路径:从GAN-Transformer-Diffusion Model-DiT5 VAE(Variational Autoencoder 变分自编码器)于2013年由Kingma和Welling提出,2015开始被应用于视频预测任务,通过编码器将输入数据映射到潜在空间,然后通过解码器从潜在空间生成数据。VAE生成视频内容存在模糊等问题。 GAN(Generative Adversarial Networks,对抗生成网络)于2014年由Ian Goodfellow等人提出,2016年左右开始用于视频生成,主要由生成器(Generator)和判别器(Discriminator)两部分组成,生成器负责生成数据,判别器负责判断数据的真实性,两者在训练过程中不断竞争,生成器学习产生越来越真实的数据,而判别器学习更好地区分真假数据,通过两者相互博弈来实现高质量图片或是视频的生成。对抗训练提升了生成内容的质量,但存在多样性有限、训练不稳定容易出现梯度消失和模式崩溃等问题。VAE+GAN,VAE与GAN常常结合使用,使生成的视频内容更加多样化,并改善生成视频的清晰度和真实性。基于GAN的视频生成产品包括VideoGAN、TGAN等。图:VAE模型示意图图:GAN模型示意图数据来源:Diederik P Kingma, Max Welling《Auto-Encoding Variational Bayes》,阿里云开发者社区,国元证券研究所数据来源:Ian J. Goodfellow等《Generative Adversarial Networks》,AWS,国元证券研究所请务必阅读正文之后的免责条款部分1.技术路径:从GAN-Transformer-Diffusion Model-DiT6 Transformer: Transformer架构于2017年由Google团队提出并逐渐应用于视频生成领域。2020年ViT论文发表,2021Google发表了Video Vision Transformer。Transformer架构更好的建模像素点之间的上下文关系,提升视觉内容生成质量,缺点在于高昂的成本和较慢的生成速度。代表性产品包括VideoGPT、Phenaki等。 Diffusion Model:扩散模型灵感源于热力学,由一个逐级添加高斯噪声的前向扩散过程和一个逐级预测并消除噪声的反向过程
[国元证券]:AI应用行业系列报告:AI视频生成,商业化加速,国产厂商表现亮眼,点击即可下载。报告格式为PDF,大小2.86M,页数24页,欢迎下载。
