传媒:GPT-4o发布,关注强交互场景落地

1 行业报告│行业点评研究 请务必阅读报告末页的重要声明 传媒 GPT-4o 发布,关注强交互场景落地 ➢ 行业事件: 北京时间 5 月 14 日凌晨,美国人工智能公司 OpenAI 发布新一代旗舰生成模型 GPT-4o、桌面 App,并重点展示了突破性的语音交互能力。 ➢ GPT-4o 交互能力实现突破,“拟人化”程度进一步提升 从产品效果来看,GPT-4o 在实时语音交互领域实现突破性进展,为用户提供更为自然、准确的交互体验:1)用户可以随时打断模型,而不需要等到其结束才开始说话,交互更加符合人类交互逻辑;2)实时响应能力大幅提升,模型具有实时响应的能力,不会出现用户长时间等待模型给出响应的尴尬情况;3)模型具有情绪感知能力,能够生成不同情绪风格的语音,交互更加拟人。基于 GPT-4o 强大的交互能力,发布会中展示了丰富的应用场景,包括声情并茂地讲情感故事、实时视频对话、实时音频翻译等。从技术层面看,GPT-4o 采用了全新技术,所有的输入和输出都由同一个神经网络处理,从而实现文本、视觉和音频端到端的训练。 ➢ AI C 端应用有望加速落地,重点关注社交、游戏、教育领域 2024 年以来,多模态能力成为生成式 AI 的重点攻坚方向,而 OpenAI 作为头部企业,在技术和产品层面持续引领行业发展。2024 年 2 月 OpenAI 发布 Sora 以来,海内外视频生成类应用加速落地。我们认为此次 GPT-4o 的发布,亦有望助推语音交互类 AI 应用的落地进程,其中在社交、游戏、教育领域有望率先落地。 1)社交:目前,AI+社交产品形态多以“用户-AI 智能体”交互为主,用户通过与个性化 AI 虚拟人的交互过程,获得陪伴感与情绪价值。从产品数据来看,海外头部产品 Character.AI 月活达千万级别,国内 Minimax 旗下“星野”增势显著。从落地门槛来看,陪伴类场景的任务简单、容错率高,因此成为最快落地的 AI C 端应用场景。从用户需求来看,AI 智能体“更像人”是 AI 社交用户的核心需求。GPT-4o 发布后,有望从多模态(从文字交互到语音交互)、拟人化(更准确识别用户的情绪和需求)等方面大幅提升用户体验,从而推动 AI 社交类产品进一步破圈、提升商业化能力。 2)游戏:AI 在游戏研发流程中落地较快,目前核心关注游戏玩法的创新。其中 AI+NPC 已在网易《逆水寒》等产品中落地,但仅限于文字类交互,与核心玩法的结合也较为有限。随着 GPT-4o 引领交互方式变革,游戏内 NPC有望与用户实现实时的语音交互、拟人化程度有望进一步提升,大幅提升用户的沉浸感,进而提升活跃度及付费意愿。 3)教育:此前,海外多邻国等已将生成式 AI 运用于口语练习等场景中,助推 2023Q4 付费用户同比增长 57%。GPT-4o 落地后有望使“AI 教师”更为拟人,进一步提升教学、培训效率和用户体验。 ➢ 投资建议 随着海外 AI 模型能力加速演进,以及国内模型能力的持续追赶,2024 年以来国内 AI C 端应用落地进程显著加速,有望孵化 AI 原生的“杀手级应用”。建议关注:1)AI C 端应用落地较快的昆仑万维、盛天网络;2)估值低位、业绩较优的游戏标的恺英网络、巨人网络。 风险提示:技术发展不及预期,AI 应用落地不及预期,政策监管风险。 证券研究报告 2024 年 05 月 14 日 投资建议: 强于大市(维持) 上次建议: 强于大市 相对大盘走势 作者 分析师:丁子然 执业证书编号:S0590523080003 邮箱:dingzr@glsc.com.cn 联系人:周砺灵 邮箱:zhoull@glsc.com.cn 相关报告 1、《传媒:传媒互联网 2023 业绩&2024Q1 基金持仓点评:供需提振驱动景气度向上,配置比例小幅回升》2024.05.05 2、《传媒:电影行业跟踪:多元化内容撬动需求,关注电影院线复苏》2024.04.21 -40%-20%0%20%2023/52023/92024/12024/5传媒沪深300请务必阅读报告末页的重要声明 2 行业报告│行业点评研究 1. GPT-4o 交互能力全面提升 GPT-4o 性能大幅提升,可实现更加的自然人机交互。GPT-4o 采用了全新的语音交互技术,具有强大的交互能力,能够接受文本、音频和图像的任意组合作为输入,并生成文本、音频和图像的任意组合输出。同时,GPT-4o 的响应速度显著提升,实现更加自然流畅的交流。 1.1 GPT-4o 性能全面提升 全新技术助力性能大幅提升。GPT-4o 推理能力、多模态能力等显著提升,语音对话响应更加流畅。GPT-4o 采用了全新技术,所有的输入和输出都由同一个神经网络处理,从而实现文本、视觉和音频端到端的训练。在 GPT-4o 之前,ChatGPT 语音模式由三个独立模型组成,首先通过语音转文本模型将语音内容转成文字,然后转成的文字输入给 GPT3.5/GPT-4 模型进行内容生成,最后再通过文本转语音模型将GPT3.5/GPT-4 生成的内容转成语音输出。这种多模型级联的方式导致整个交互体验非常差,整个系统延迟达 2.8 秒(GPT-3.5)和 5.4 秒(GPT-4),而且这种多模型级联方式导致大量信息丢失,无法感受到音调、多个说话者,输出也比较枯燥且无法表达情感。基于端到端神经网络的 GPT-4o 能力大幅提升,不仅反应快、回答准,还能按要求改变说话语气,实时语音翻译能力也非常自然流畅。同时视觉能力显著优化,可以实现实时视频交互,能通过人的表情和语调理解并判断出人的情绪。GPT-4o 可以在 232 毫秒的时间内响应音频输入,平均响应时长为 320 毫秒,几乎与人类相似。 推理能力:GPT-4o 在 MMLU、GPQA、MATH、HumanEval 等测试基准上均超越 GPT-4 Turbo、Claude 3 Opusn、Gemini Pro1.5 等模型,在测试中均获得最高分。GPT-4o 在 0-shot COT MMLU(一般知识问题)中取得 88.7 的高分,在传统的 5-shot no-COT MMLU 上,取得 87.2 的高分。 请务必阅读报告末页的重要声明 3 行业报告│行业点评研究 图表1:GPT-4o 推理能力对比 资料来源:OpenAI 官网,国联证券研究所 音频能力:在语音识别性能方面,GPT-4o 相比 Whisper-v3 在所有语言的语音识别性能上均大幅提高,尤其是资源较少的语言。GPT-4o 在音频翻译方面也树立了行业新标杆,在 MLS 基准测试中优于 Whisper-v3 以及 Meta、谷歌的语音模型。 图表2:GPT-4o 与 Whisper 音频能力对比 图表3:OpenAI、Meta 和 Google 音频翻译能力对比 资料来源:智东西,国联证券研究所 资料来源:智东西,国联证券研究所 文本和代码能力:GPT-4o 在英文文本和代码上的性能与 GPT-4 Turbo 的性能相近,但在非英文文本上的性能显著提升,同时 API 的速度也更快,成本降低了

立即下载
互联网
2024-05-14
国联证券
丁子然
7页
0.69M
收藏
分享

[国联证券]:传媒:GPT-4o发布,关注强交互场景落地,点击即可下载。报告格式为PDF,大小0.69M,页数7页,欢迎下载。

本报告共7页,只提供前10页预览,清晰完整版报告请下载后查看,喜欢就下载吧!
立即下载
本报告共7页,只提供前10页预览,清晰完整版报告请下载后查看,喜欢就下载吧!
立即下载
水滴研报所有报告均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。
相关图表
始祖鸟部分创新产品
互联网
2024-05-14
来源:安踏体育(02020.HK)深度报告:后疫情时代,多品牌全球化助力高质量增长
查看原文
Amer Sports 分渠道收入(亿美元)及同比 图 83:Amer Sports 分地区收入(亿美元)及同比
互联网
2024-05-14
来源:安踏体育(02020.HK)深度报告:后疫情时代,多品牌全球化助力高质量增长
查看原文
威尔胜品牌发展历史
互联网
2024-05-14
来源:安踏体育(02020.HK)深度报告:后疫情时代,多品牌全球化助力高质量增长
查看原文
萨洛蒙品牌发展历史
互联网
2024-05-14
来源:安踏体育(02020.HK)深度报告:后疫情时代,多品牌全球化助力高质量增长
查看原文
始祖鸟品牌发展历史
互联网
2024-05-14
来源:安踏体育(02020.HK)深度报告:后疫情时代,多品牌全球化助力高质量增长
查看原文
Amer Sports 2001-2018 年营业收入、净利润(亿欧元)及同比
互联网
2024-05-14
来源:安踏体育(02020.HK)深度报告:后疫情时代,多品牌全球化助力高质量增长
查看原文
回顶部
报告群
公众号
小程序
在线客服
收起