计算机行业人工智能系列报告(六):交互型多模态大模型有望带来应用的爆发起点
1 | 请务必仔细阅读报告尾部的投资评级说明和声明 行业专题报告 | 计算机 交互型多模态大模型有望带来应用的爆发起点 人工智能系列报告(六) 核心结论 行业评级 超配 前次评级 超配 评级变动 维持 近一年行业走势 相对表现 1 个月 3 个月 12 个月 计算机 -5.39 -13.20 -35.38 沪深 300 -3.28 -8.79 -13.66 分析师 郑宏达 S0800524020001 13918906471 zhenghongda@research.xbmail.com.cn 联系人 卢可欣 16621642550 lukexin@research.xbmail.com.cn 相关研究 计算机:科技自主的道路是星辰大海—计算机行业 2024 年 9 月研究观点 2024-08-30 计算机:美股软件股目前的估值和股价表现—计算机行业周观点第 22 期 2024-08-25 计算机:阿里腾讯加码 AI 决心坚定—计算机行业周观点第 21 期 2024-08-17 交互型多模态大模型是指跨越单一模态的限制,支持文本、音频、图像、视频等模态任意组合的输入输出,能做出实时的、“类人”的理解和反馈,可以跟人无缝交流的大模型,目前最具代表性的是 OpenAI 的 GPT-4o。特点如下:1)原生多模态:跨文本、视频和音频等模态端到端训练的大模型,所有输入和输出都由同一神经网络处理。2)快速响应:能做到极低延迟,响应速度比肩人类,且可以做到对话随时打断。现在 GPT-4o 能在短至 232 毫秒、平均 320 毫秒的时间内响应音频输入,而过去 GPT-3.5 平均延时为 2.8 秒、GPT-4 为 5.4 秒。3)情感表达:回复有“人味”,情绪饱满,会带来极强的交互沉浸感。4)记忆:能回忆并联系此前“看”到的信息做出回答,而不是仅仅依靠当前输入。 交互型多模态大模型成本将降至几何?大模型降本趋势显著。8 月,OpenAI 发布更强且更具性价比的 GPT-4o 新版本,相比 5 月版本价格下降超 40%至$4/100万 tokens。按照这个趋势,我们预计以 GPT-4o 为代表的交互型多模态大模型的成本将继续快速下降,每百万 tokens 的推理成本或将在两年内降至美分量级。 交互型多模态大模型进展如何? OpenAI 与谷歌双巨头抢滩,分别发布 GPT-4o和 AI 智能体项目 Project Astra,Meta 也于 2024 年 5 月发布具有原生多模态特性的 Chameleon-34B。国内的大模型多处于语音交互阶段,商汤领衔发布流式多模态交互大模型“日日新 5o”,智谱面向 C 端开放“视频通话”功能。 为什么交互型多模态大模型有望带来应用的爆发?1)人类生活在一个由多种模态信息构成的世界,会同时收到多个互补的、融合的、不同模态的感官输入,多模态更符合人类感知周边、探索世界的方式。2)应用是连接人类意图与信息及技术实现的媒介,其本质是交互。我们认为从 PC 互联网时代,到移动互联网时代,再到现在的 AI 时代,应用发展的核心就是人机交互的不断进化与深化。所以在大模型迭代过程中,性能提高固然重要,但交互的升级也同样具有重大价值,交互型多模态大模型的出现有望推动人机交互变革——向更为简单的自然语言交互形式发展。 交互型多模态大模型会带来怎样的应用?我们将交互型多模态大模型的应用分为:1)数字智能,大模型提供软件形式的服务,主要应用场景包括教育、编程、医疗健康、游戏、情感陪伴等。2)具身智能,需要硬件支持来实现三维空间内的运动行为,如人形机器人、智能家居、智能座舱等。 交互型多模态大模型商业模式展望:1)聊天助手 APP。2)作为基础模型接入各类应用。3)与终端 OS 深度融合成为 AI 时代的“超级入口”。 相关标的梳理:1)交互型多模态大模型:商汤-W、云从科技-UW;2)数字智能应用:金山办公、科大讯飞、虹软科技、美图公司;3)具身智能应用:海康威视、大华股份;4)算力:寒武纪、软通动力、海光信息、浪潮信息、中科曙光、神州数码。 风险提示:AI 技术突破不及预期、终端智能需求不及预期、宏观经济增长不及预期、国际环境变化。 -39%-33%-27%-21%-15%-9%-3%2023-092024-012024-05计算机沪深300证券研究报告 2024 年 09 月 03 日 行业专题报告 | 计算机 西部证券 2024 年 09 月 03 日 2 | 请务必仔细阅读报告尾部的投资评级说明和声明 索引 内容目录 一、 什么是交互型多模态大模型? ......................................................................................... 4 1.1 交互型多模态大模型应具备什么特点? ........................................................................ 4 1.2 交互型多模态大模型成本将降至几何? ........................................................................ 8 二、 交互型多模态大模型进展如何? .................................................................................... 10 2.1 海外:OpenAI 与谷歌双巨头抢滩 .............................................................................. 10 2.2 国内:大模型多处于语音交互阶段,商汤智谱领衔升级视频交互功能 ....................... 11 三、 为什么交互型多模态大模型有望带来应用的爆发? ....................................................... 14 3.1 视觉是获取外部信息最主要的途径,多模态更符合人类感知的方式 .......................... 14 3.2 应用发展的核心就是人机交互模式的升级 .................................................................. 15 四、 交互型多模态大模型会带来怎样的应用? ..................................................................... 19 4.1 交互型多模态大模型在“数字智能”中的应用 ........................................................... 19 4.1.1 教育 ...............................................
[西部证券]:计算机行业人工智能系列报告(六):交互型多模态大模型有望带来应用的爆发起点,点击即可下载。报告格式为PDF,大小4.52M,页数39页,欢迎下载。
