人工智能的下一站:文生3D
中 泰 证 券 研 究 所专 业 | 领 先 | 深 度 | 诚 信|证券研究报告|2 0 2 4 . 0 3 . 0 1人工智能的下一站:文生3D分析师:闻学臣执业证书编号:S0740519090007联系人:刘一哲摘要◼ 以大模型、生成式为代表的新一代人工智能技术与产业变革如火如荼,从Chat GPT代表的文生文,到DALL·E代表的文生图,再到Sora代表的文生视频,“暴力美学”在持续突破技术的天花板,多模态也成为了共识的发展趋势,继文本、代码、图片、视频之后,我们认为下一个有可能实现突破的模态大概率是3D。◼ AI+3D建模技术具备广阔的发展前景,但其当前也面临较多挑战,如3D数据与资产缺乏、AI训练难度高、AI实时渲染技术有限、商业化落地难度大等问题。◼ 目前海外在AI+3D技术上主要分为工业场景探索与非工业场景探索。非工业场景应用探索主要以谷歌的DreamFusion和英伟达的Magic3D为代表,主要面向游戏、元宇宙中的3D资产设计;工业场景应用则主要以衍生式设计软件为主,如PTC的Creo以及Autodesk的Fushion 360均提供衍生式设计能力。◼ 投资建议:产业视角建议持续跟踪关注文生3D建模领域的进展,标的视角BIM领域重点关注广联达、盈建科;CAX领域重点关注中望软件、索辰科技、浩辰软件;EDA领域重点关注华大九天、概伦电子。◼ 风险提示:AI技术发展不及预期;核心AI技术授权断供的风险;行业竞争加剧的风险;产品研发打磨不及预期;研报使用信息更新不及时的风险等目 录C O N T E N T S多模态成为共识,3D将是下一个重点突破方向AI+3D:前景广阔,仍面临诸多技术挑战当前海外AI+3D探索进展投资建议与风险提示1234CONTENTS目录CCONTENTS专 业 | 领 先 | 深 度 | 诚 信中 泰 证 券 研 究 所1多模态成为共识,3D将是下一个重点突破方向5不同模态对应的人工智能技术与应用展望图表:生成式AI达到人类创作者水平的时间资料来源:红杉汇,中泰证券研究所61.1 文生文(Text to Text)◼ 文生文(Text to Text)是AIGC行业最先实现的功能,也是ChatGPT等一系列大模型诞生以来被大家体验最多的功能。目前,文生文模型中被应用较多的是OpenAI的GPT系列大模型。◼ ChatGPT率先支持以更连贯自然的语法对输入的问题进行回答。GPT系列基于Transformer 架构对序列数据中的长距离依赖进行建模,同时OpenAI使用了来自互联网的大量文本数据,包括书籍、文章和网站,来对GPT模型进行无监督学习训练。目前,GPT系列已被用于广泛的自然语言处理任务,包括语言翻译、文本补全和文本生成。•GPT-1:发布于2018年6月,参数量1.17亿;•GPT-2:发布于2019年2月,参数量15亿;•GPT-3:发布于2022年5月,参数量1750亿;•ChatGPT:发布于2022年11月,参数量15亿,专门为会话任务而设计和训练。图表:ChatGPT中文对话示例资料来源:腾讯新闻,中泰证券研究所图表:ChatGPT英文对话示例资料来源:腾讯新闻,中泰证券研究所71.2 文生代码(Text to Code)◼ ChatGPT的出现,不仅让人机对话更为连贯、自然、有条理,且ChatGPT本身即具备丰富的代码知识积累,可根据人类语言提示自动生成代码,也可为用户回答一般编程问题、代码测试与改进、代码翻译等功能。◼ 不过, ChatGPT的诞生并不专门针对代码,并且可能无法无缝集成到用户的工作流程中。除ChatGPT外,目前市面上已有很多专业AI工具在文生代码方面具备相当的水平。具有代表性的工具如GitHub Copilot、Codex等。•GitHub Copilot:Github与OpenAI共同开发的AI驱动的编程助手。它能够直接在用户的编辑器中提供代码片段或者整个函数的建议,以帮助用户更快地编写和完成代码。这一工具可以被看作是一个自动的代码完成工具,它能理解自然语言,也能理解代码本身的上下文。Copilot 在 GitHub 上可用的公共存储库上接受过训练,能够处理各种编程语言和框架。•Codex:OpenAI公司推出的 GPT-3 的多个派生模型之一。它是基于GPT语言模型、使用代码数据进行 Fine-Tune而训练出的专门用于代码生成与文档生成的模型。Codex 能够帮助程序员自动补全代码、直接生成代码、自动补充测试样例,并支持多种编程语言。图表:ChatGPT生成代码示例资料来源:腾讯云开发者社区,中泰证券研究所图表:GitHub Copilot生成代码示例资料来源:少数派,中泰证券研究所81.3 文生图像(Text to Image)◼ 2022 年前,文生图的模型以生成性对抗网络(GANs)为主。但因为在实践中存在明显不足,甚至还不如用Photoshop 等工具直接创作,无法用于商业化。◼ 从2021年OpenAI提出DALL·E模型和CLIP(Contrastive Language-lmage Pre-training,对比图文预训练)开始,各大公司开始不断推出新的文生图模型,从生成效果和效率上相对于以前的文生图方法都提升了一大截。特别是2022年8月Stable Diffusion正式面世引领AIGC的行业发展,其作为一个迅速火出圈的AI技术,以极快的速度吸引了大量关注。同时,这也奠定了Diffusion 模型在文本生成图像领域的核心方法地位。图表:AI文生图模型阵营及简史资料来源:《中国 AIGC 文生图产业白皮书 2023》,中泰证券研究所91.3 文生图像(Text to Image)代表公司——Midjourney◼ 目前,通用文生图主要公司及产品工具包括Midjourney、Stability.AI、Disco Diffusion、 DALL·E模型等,垂直文生图主要公司及产品工具则包括looka(Logo 与网站设计)、 NovelAI(二次元形象生成),Scenario(游戏资产生成),以及Lensa(头像生成)。 Midjourney:Midjourney 是一款由Midjourney研究实验室开发的人工智能程序,可根据文本生成图像,于 2022年3年正式面世,用户通过与 Midjourney bot 进行对话式交互,提交 Prompt(文本提示词)来快速获得想要的图片。•Midjourney 参考了 CLIP 及 Diffusion,构建了自己的闭源模型,抓取公开数据进行训练,并构建了 Discord 中的Midjourney bot 应用。作为应用层公司,Midjourney 收集用户反馈数据,迭加技术的进步,不断迭代模型。•Midjourney 采取 SaaS 订阅制模式。最初使用时,用户可以免费生成 25 张照片。之后按照订阅制收费。月付制为 10、30、60 美元,或者使用年付制,价格为 8、24、48 美元/月。•2022 年 3 月,Midjourney 启动邀请制 Beta 版本。因为文生图本身具有极强的吸引力,且 Midjourney 创作的图片质量很高,所以很快
[中泰证券]:人工智能的下一站:文生3D,点击即可下载。报告格式为PDF,大小2.28M,页数35页,欢迎下载。
