计算机行业:Sora技术深度解析
请务必阅读报告末页的重要声明证券研究报告|行业专题报告计算机行业行业评级 强于大市(维持评级)2024年2月25日Sora技术深度解析证券分析师:施晓俊 执业证书编号:S0210522050003研究助理:李杨玲王 思华福证券投资要点Sora横空出世引领多模态产业革命。美国时间2月15日,文生视频大模型Sora横空出世,能够根据文本指令或静态图像生成1分钟的视频。其中,视频生成包含精细复杂的场景、生动的角色表情以及复杂的镜头运动,同时也接受现有视频扩展或填补缺失的帧。总体而言,不管是在视频的保真度、长度、稳定性、一致性、分辨率、文字理解等方面,Sora都做到了业内领先水平,引领多模态产业革命。此外,当 Sora 训练的数据量足够大时,它也展现出了一种类似于涌现的能力,从而使得视频生成模型具备了类似于物理世界通用模拟器的潜力。拆解视频生成过程,技术博采众长或奠定了Sora文生视频领军地位。从技术报告中,Sora视频生成过程大致由“视频编码+加噪降噪+视频解码”三个步骤组成,视频压缩网络、时空patches、transformer架构、视频数据集等技术与资源在其中发挥了重要作用。视频压缩网络:过往VAE应用于视频领域通常需插入时间层,Sora从头训练了能直接压缩视频的自编码器,可同时实现时间和空间的压缩,既节省算力资源,又最大程度上保留视频原始信息,或为Sora生成长视频的关键因素,并为后续处理奠定基础。时空patches:1)同时考虑视频中时间和空间关系,能够捕捉到视频中细微的动作和变化,在保证视频内容连贯性和长度的同时,创造出丰富多样的视觉效果;2)突破视频分辨率、长宽比等限制的同时显著提升模型性能,节约训练与推理算力成本。Transformer架构:1)相比于U-Net架构,transformer突显Scaling Law下的“暴力美学”,即参数规模越大、训练时长越长、训练数据集越大,生成视频的效果更好;2)此外,在transformer大规模训练下,逐步显现出规模效应,迸发了模型的涌现能力。视频数据集:Sora或采用了更丰富的视频数据集,在原生视频的基础上,将DALL・E3的re-captioning技术应用于视频领域,同时利用GPT保障文字-视频数据集质量,使得模型具有强大的语言理解能力。投资建议:我们认为,在视频压缩网络与时空patches提高计算效率与利用原生视频信息的基础上,transformer或取代U-Net成为扩散模型主流架构。可拓展性更强的transformer需要更为有力的算力支持才能保障视频生成质量,同时相比于大语言模型,视觉数据的训练与推理算力需求更大,因而算力有望成为确定性最高的受益赛道。此外,Sora发布有望形成多模态产业“鲇鱼效应”,激励其他多模态厂商的良性发展。建议关注:1)AI算力:云赛智联、思特奇、恒为科技、海光信息、寒武纪、景嘉微、中科曙光、浪潮信息、拓维信息、四川长虹、工业富联、神州数码等;2)AI+多模态:万兴科技、虹软科技、当虹科技、中科创达、大华股份、海康威视、漫步者、萤石网络、汉仪股份、美图公司、云从科技。风险提示:技术发展不及预期、产品落地不及预期、AI伦理风险等。2华福证券目录31. Sora引领多模态革命,技术与资源突显优势2. 博采众长,Sora技术开拓创新3. 投资建议4. 风险提示华福证券41.1 Sora横空出世,引领多模态产业革命美国时间2月15日,文生视频大模型Sora横空出世,能够根据文本指令或静态图像生成1分钟的视频。其中,视频生成包含精细复杂的场景、生动的角色表情以及复杂的镜头运动,同时也接受现有视频扩展或填补缺失的帧。总体而言,不管是在视频的保真度、长度、稳定性、一致性、分辨率、文字理解等方面,Sora都做到了业内领先水平,引领多模态产业革命。此外,当 Sora 训练的数据量足够大时,它也展现出了一种类似于涌现的能力,从而使得视频生成模型具备了类似于物理世界通用模拟器的潜力。资料来源:data learner,新浪新闻图数室,华福证券研究所图表:Sora与业内主流视频生成模型对比图表:Sora和其他模型优势对比总览公司名称生成功能最长时长时长可延展相机控制(平移/变焦)动作控制Runway文生视频4S√√√图生视频视频生视频Pika文生视频3S√√√图生视频Genmo文生视频6S×√√图生视频Kaiber文生视频16S×××图生视频视频生视频Stability图生视频4S××√Sora文生视频60S√√√图生视频视频生视频资料来源:data learner,新浪新闻图数室,华福证券研究所华福证券51.2 Sora视频生成过程:视频编码+加噪降噪+视频解码从技术报告中,Sora视频生成过程大致由以下三个步骤组成:视频编码:Visual Encoder将原始视频压缩为低维潜在空间,再将视频分解为时空patches后拉平为系列视频token以供transformer处理。加噪降噪:在transfomer架构下的扩散模型中,时空patches融合文本条件化,先后经过加噪和去噪,以达到可解码状态。视频解码:将去噪后的低维潜在表示映射回像素空间。总体而言,我们认为Sora技术报告虽未能详尽阐述视频生成技术细节,但从参考技术文献中,可初步窥探出时空patches、视频压缩网络、 Transformer技术架构、独特文本标注视频数据集等技术与资源优势,这些或为Sora占据业内领先地位的原因。资料来源:魔塔ModelScope社区,华福证券研究所图表:Sora技术架构猜想图表:Sora视频生成过程图视频编码加噪降噪视频解码华福证券目录61. Sora引领多模态革命,技术与资源突显优势2. 博采众长,Sora技术开拓创新3. 投资建议4. 风险提示华福证券72.1 视频压缩网络实现降维,或为长视频生成基础OpenAI训练了降低视觉数据维度的网络,该网络接受原始视频作为输入,并输出在时间和空间上都被压缩的潜在表示。Sora在这个压缩的潜在空间上进行训练,并随后生成视频。与之对应,Sora训练了相应的解码器模型,将生成的潜在表示映射回像素空间。压缩网络本质上是将高维数据映射至低维空间,低维空间中每个点通常对应原始高维数据的潜在表示,在复杂性降低和细节保留之间达到最优平衡点,实现提升视觉保真度的同时降低算力资源消耗的作用。VAE为图片生成领域的常见图片编码器,应用到视频领域则需要加入时间维度以形成视频框架。例如,2023年发布的VideoLDM通过将视频拆解为每一帧,之后插入时间对齐层,从而实现了视频生成。Sora从头训练了能直接压缩视频的自编码器,既能实现空间压缩图像,又能在时间上压缩视频。我们认为,在时空维度上压缩视频,既节省了算力资源,又最大程度上保留视频原始信息,或为Sora生成60s长视频的关键因素,并为后续时空patches和transfomer架构处理奠定基础。资料来源:Medium,Towards Data Science,华福证券研究所图表:VAE技术原理图,由编码器和解码器组成图表:VideoLDM在图片编码器基础上加入时间维度资料来源:Blattmann et
[华福证券]:计算机行业:Sora技术深度解析,点击即可下载。报告格式为PDF,大小3.52M,页数21页,欢迎下载。