海外科技行业专题报告:OpenAI引领多模态升级,AIGC产业迎新革命
请务必阅读正文之后的免责条款部分 [Table_MainInfo] [Table_Title] 2023.10.14 OpenAI 引领多模态升级,AIGC 产业迎新革命 ——海外科技行业专题报告 梁昭晋(分析师) 0755-23976666 liangzhaojin027677@gtjas.com 证书编号 S0880523010002 本报告导读: Open AI 多模态全面升级,生成式 AI 由模型层向应用层发力,重构应用层推动 AIGC产业革命。 摘要: [Table_Summary] 投资建议:OpenAI 多模态升级引领大模型竞赛,重构内容创作与交互推动 AIGC 产业全面爆发,推荐标的腾讯控股(0700.HK)、网易-S(9999.HK)、快手-W(1024.HK)、哔哩哔哩-W(9626.HK)、爱奇艺(IQ.O)、云音乐(9899.HK)、心动公司(2400.HK)。 OpenAI 多模态全面升级,构架全新交互体验。OpenAI 先后宣布推出最新文生图模型“Dall·E 3”及多模态模型“GPT-4V”,并将在未来两周时间里向 ChatGPT Plus 和 Enterprise 用户开放,语音功能结合语音识别、转录及音频生成实现语音双向对话,图生文功能升级支持多图像处理及聚焦分析,较其他模型实现简化 Prompt 精准成像,此外Dall·E 3 内容审核机制全面优化,多项缓解措施实现内容风险显著压降。随着 Win 11 集成 Copilot 功能升级、Bing 增加对 Dall·E 3 模型支持,Copilot 订阅有望更好落地,AI 大模型商业化空间将逐步展现。 全球多模态竞争激烈,大模型能力加速革新。OpenAI 深耕多模态领域多时,GPT-4V、Dall·E 3、Gobi、CLIP 等引领竞赛,Google Gemini已内部开放且算力将达到 GPT-4 5 倍,海外 Meta、Stability AI 等及国内百度集团、阿里巴巴、腾讯等科技巨头争相布局,多模态发展趋势明确,大模型能力持续迭代下及生成式 AI 产业空间将加速打开。 多模态推动应用层爆发,AIGC 产业迎来革命。Dealroom 数据显示过去 5 年全球生成式 AI 投资总额逾 220 亿美元,其中模型制造商、应用程序占比分别达到 21%、8%;国内方面,艾瑞咨询数据显示 2023年应用层融资占比达到 14.4%,其中 AIGC 跨模态、多模态融资占比达到 42.4%、16.4%,随着大模型生态培育、底层算力基础设施完善及应用生态构建下 2030 年中国 AIGC 产业规模有望达到 1.14 万亿。 我们认为,多模态模型能力将全面革新应用层,一方面通过内容理解和内容生成重塑内容生产方式,推动 UGC、PGC 迈向 AIGC 内容时代,量子位预计 2023 年 AIGC 直接内容生产仍是 AIGC 最大市场,游戏、视频、视频、音乐等内容生产形式已开始变革,创作效率及内容品质双双提升;另一方面,通过重构交互形式构建全新内容形态并带来全新应用场景,New Bing 重构搜索体验展现商业化潜力,腾讯混元接入 50+业务和产品取得初步效果,AIGC 产业链全面爆发可期。 风险提示:AI 技术发展未及预期;AI 投融资热度消退;AI 应用创新未及预期;AI 应用用户接受度未及预期。 [Table_Invest] 评级: 增持 [Table_Market] 交易数据 行业主要上市公司 市值(亿港元) 腾讯控股 29,231 网易 5,277 快手 2,761 市值合计 37,269 感谢秦和平对本报告的贡献 [Table_Report] 相关报告 海外行业专题(香港) 信息科技 股票研究 证券研究报告 海外行业专题 请务必阅读正文之后的免责条款部分 2 of 21 目 录 1. OpenAI 多模态全面升级,构建全新交互体验 ............................... 3 2. 全球多模态竞争白热化,大模型能力加速革新 ............................. 8 3. 多模态推动应用层爆发,AIGC 产业迎来革命 ............................ 12 4. 投资建议 ................................................................................... 18 5. 风险提示 ................................................................................... 18 海外行业专题 请务必阅读正文之后的免责条款部分 3 of 21 1. OpenAI 多模态全面升级,构建全新交互体验 OpenAI 多模态能力升级,语音对话及图生文功能上线。9 月 21 日,OpenAI 宣布即将推出最新“文生图”模型——Dall·E 3。相比于 DALL·E 2,DALL·E 3 拥有更加出色的图像渲染能力以及更加细腻的理解能力,使用户能够轻松地将想法转化为准确的图像;同时,Dall·E 3 可集成在ChatGPT 中使用并简化“提示工程”,大幅度降低人机沟通门槛,原生实现多模态输出。9 月 25 日,OpenAI 宣布推出多模态模型 GPT-4V,并将在未来两周时间里向 ChatGPT Plus 和 Enterprise 用户开放新增的语音及图像交互功能。其中,语音功能将在移动端 iOS 和 Android 上提供,使用户可以与 ChatGPT 进行语音沟通,而图像功能将在所有平台上提供,使用户能够通过上传图片表达需求并提问。 图 1 OpenAI 文生图模型 DALL·E 3 即将开放使用 数据来源:OpenAI 官网 集合语音识别、转录及音频生成,实现高效语音双向对话。本次升级中,更新后的语音功使用户能够与 ChatGPT 实现纯语音实时互动对话,并具备以下特点:1)精准语音识别:语音对话功能集合了 Whisper 开源语音识别系统,该系统已经接受了超过 680,000 小时的多语言、多任务监督训练,对于不同口音、背景噪音、技术语言的识别具有优异的性能,提高了语音交互准确性及效率,并为用户提供了多达 5 种不同的语音选项;2)双向语音对话能力:输入端,基于 OpenAI 自研的开源语音识别模型工具 Whisper,将语音转换为文本实现语音输入,输出端,同时通过基于文本到语音(TTS)模型支持,将文字和样本语音生成模拟音频实现语音输出;3)播客内容分享:OpenAi 通过与 Spotify 合作,可以将播客音频在保留主持人音色的基础上翻译为其他语言,使播客内容能够被更广泛的听众理解和共享。
[国泰君安]:海外科技行业专题报告:OpenAI引领多模态升级,AIGC产业迎新革命,点击即可下载。报告格式为PDF,大小3.26M,页数21页,欢迎下载。



