综合金融服务行业生成式AI下一颗最闪亮的星:视频+引擎
1证券研究报告作者:海外行业报告 | 行业专题研究请务必阅读正文之后的信息披露和免责申明生成式AI下一颗最闪亮的星:视频+引擎2023年10月15日分析师 孔蓉SAC执业证书编号:S1110521020002分析师 李泽宇 SAC执业证书编号:S1110520110002摘要2请务必阅读正文之后的信息披露和免责申明1)内容创作工具的重要性如何?我们认为关键在于拉动远比工具本身更大的市场,类似于短视频时代的前身GIF创作工具,如剪映这种创作工具和抖音这种内容生态,Maya这种创作工具和动画的内容生态,视频与建模工具将进一步大幅拉动生成式AI的需求。2)能力或出现明显分化。我们认为当前Diffusion开源模型下各公司生成图片的能力尚未明显出现分化,但建模和视频更重要的在于和传统工具与工作流的结合 。3)接下来半年关注什么?我们认为从能力来看,图片生成的可控性快速提高或将出现,矢量图、结构、视频、3D模型生成也将提速。尤其关注Unity与Apple的合作,在AI生成内容/建模/App适配上将会如何塑造空间计算的内容与应用的标准生态。风险提示:生成式AI发展不及预期;算力成本及硬件发展不及预期;相关应用产品上线后效果不及预期。3请务必阅读正文之后的信息披露和免责申明目录1、生成式AI在视频/3D/游戏等领域的渗透加速2、生成式AI下游应用场景展望3、风险提示资料来源:NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis(B Mildenhall等),Generative AI meets 3D: A Survey on Text-to-3D in AIGC Era(C Li 等),量子位公众号,品览pinlan公众号,腾讯云开发者社区,datagentech等,天风证券研究所1.1 生成算法模型不断突破创新,下游应用场景不断拓展GANsDiffusionNeRF原理生成对抗网络(GAN)是一种深度学习模型,通过同时训练两个相互对抗的网络(一个生成器网络和一个判别器网络)来生成与真实数据分布相似的新数据扩散模型是一种概率生成模型,通过添加噪声逐步解构数据,然后学习逆转扩散过程来生成样本。基于2D图像输入,将3D场景展现为一组可以学习且连续的神经辐射场,不直接生成3D模型,而是由输入视角+位置来生成密度+色彩信息,从而生成新视角的模型优势能够生成较高质量的样本,一般只需要一次通过网络就可以生成一个样本,比较快速只需训练生成器而无需训练判别器,能够生成细节清晰的数据样本,质量明显优于GANs模型更准确还原3D场景中细节和颜色,比网格和其他几何表征更容易优化缺陷GAN的训练过程需要生成器和额外的判别器,且稳定性较差扩散模型的训练缓慢且计算量密集,且需要大量的数据进行有效训练训练复杂,且无法对生成的场景进行直接编辑应用场景GANs常用于图像生成、图像超分辨率、风格迁移等任务可用于生成建筑方案,游戏人物、场景设计游戏,电影和虚拟现实: 可用于创建高度逼真的虚拟世界建筑和城市设计:可用于创建比真的建筑模型并实现可视化效果基础的生成算法模型不断突破创新,基础能力日新月异,从图像向视频和3D扩展,更广泛地应用于下游应用场景生成对抗网络(GAN)是早期最著名的生成模型之一,尽管在图像生成上产生了卓越的效果,但其训练常常受到梯度消失和模式崩溃等问题的影响。与GAN相比,扩散模型(Diffusion Model)只需要训练“生成器”,不需要训练别的网络(判别器、后验分布等),训练时仅需模仿一个简单的前向过程对应的逆过程,实现简练过程的简化。扩散模型相对GAN来说具有更灵活的模型架构和更精确的对数似然计算,生成图像质量明显优于GAN,已经成为目前最先进的图像生成模型。此前扩散模型主要适用于生成2D图像,23年Runway的最新研究成果将扩散模型扩展到视频领域,在未加字幕的视频和配对的文本-图像数据的大规模数据集上训练出视频扩散模型。NeRF(神经辐射场)的出现为3D场景生成带来了新的可能性,进一步拓宽生成算法领域下游的应用场景。NeRF (Neural Radiance Field)是一种基于神经网络的 3D 重建技术,不同于传统的三维重建方法把场景表示为点云、网格、体素等显式的表达,NeRF将场景建模成一个连续的 5D 辐射场隐式存储在神经网络中,输入多角度的 2D 图像,通过训练得到神经辐射场模型,根据模型渲染出任意视角下的清晰照片。图:生成式算法模型对比41.2 Runway:生成式AI内容平台,Gen-1可实现用文字和图像从现有视频中生成新视频Runway是一家生成式AI内容平台,致力于让所有人都能进行内容创作。Runway创立于2018年,总部位于纽约,提供图片、视频领域的生成式AI服务。Runway得到众多资本青睐,获得谷歌领投的D轮融资。创立以来,Runway已获得Felicis、Coatue、Amplify、Lux、Compound等顶级投资机构投资。23年6月,Runway获得由谷歌领投的1亿美元的D轮融资,这笔融资交易包括三年内7500万美元的谷歌云积分和其他服务,估值达到15亿美元。主要产品为Gen-1和Gen-2,Gen-1可实现用文字和图像从现有视频中生成新视频,Gen-2可实现文字生成视频功能。Gen-1:不需要灯光、相机和动捕,通过将图像或文本提示的结构和风格应用于源视频的结构,逼真且一致地合成新视频,且具有表现力、电影感和一致性。Gen-1提供给用户五种不同的视频制作模式:1)Stylization:将任何图像或提示的风格转移到视频的每一帧;2)Storyboard:将模型变成完全风格化和动画的渲染。3)Mask:隔离视频中的主题并使用简单的文本提示对其进行修改;4)Render:通过应用输入图像或提示,将无纹理渲染变成逼真的输出;5)Customization:通过自定义模型以获得更高保真度的结果,释放 Gen-1 的全部功能。Gen-1的性能优势:基于用户研究,GEN-1 的结果优于现有的图像到图像和视频到视频的转换方法,比Stable Diffusion 1.5 提升 73.83%,比 Text2Live 提升88.24%。资料来源:Runway官网,The Information,天风证券研究所图:Gen-1三种模式演示:Stylization(上)、Storyboard(中)、Mask(下)图:Gen-1和Gen-2生成的作品51.2 Runway:生成式AI内容平台,最新产品Gen-2可实现文字生成视频功能Gen-2是一个多模态的人工智能系统,可以用文字、图像或视频片段生成新颖的视频。Gen-2在Gen-1的基础上迭代,保留通过将图像或文本提示的结构和风格应用于源视频的结构合成新视频的功能,新增了只用文字便可生成视频的的功能。Gen-2在Gen-1的五种视频制作模式上新增了三项新的模式:1)Text to Video:仅通过文本提示合成任何风格的视频;2)Text + Image to Video:使用图像和文本提示生成视频;3)Image to Video:用一张图片生成视频(变体模式)
[天风证券]:综合金融服务行业生成式AI下一颗最闪亮的星:视频+引擎,点击即可下载。报告格式为PDF,大小4.28M,页数31页,欢迎下载。
