AI行业深度更新报告:大模型“开源、轻量、端侧”化,视频与语音加速落地
请务必阅读正文之后的免责条款部分 股票研究 行业深度研究 证券研究报告 股票研究 / [Table_Date] 2024.08.08 大模型“开源、轻量、端侧”化,视频与语音加速落地 [Table_Industry] 传播文化业 [Table_Invest] 评级: 增持 上次评级: 增持 [Table_Report] 相关报告 传播文化业《多个知名 IP 获批进口版号,GPT-4o语音功能推进》2024.08.04 传播文化业《GPT-4o 语音、视频模式测试,可提升教育、情感陪伴体验》2024.08.01 传播文化业《快手可灵推出付费会员,PixVerseV2 全面升级》2024.07.28 传播文化业《快手可灵全球上线并升级,AI 视频工具或迎加速发展》2024.07.25 传播文化业《《抓娃娃》引燃观影热情,多款头部影片待映》2024.07.20 ——AI 行业深度更新报告 [table_Authors] 陈筱(分析师) 杨昊(分析师) 021-38675863 021-38032025 chenxiao@gtjas.com yanghao029514@gtjas.com 登记编号 S0880515040003 S0880524020001 本报告导读: 大模型能力提升阶段性放缓之际,我们提示关注“AI 落地”进展:如大模型侧“开源”“轻量”“端侧”化趋势显著,视频、音频等领域 AI 自 6 月以来更新频出。 投资要点: [Table_Summary] 继续看好 AI 技术发展对内容产业的推动作用。随着 AI 大模型开源化、轻量化,以及视频和语音等模态的快速进步,部分应用场景有望发生变化,可沿如下思路进行布局:1)游戏等应用改造,推荐吉比特、恺英网络、完美世界、美图公司,受益标的腾讯控股、网易、快手、巨人网络;2)教育赛道,受益标的南方传媒、皖新传媒、世纪天鸿;3)情感陪伴与社交,受益标的昆仑万维、盛天网络。 大模型侧:开源能力快速提升,轻量化趋势显著。2024 年以来,大模型发展呈现三大趋势:1)开源模型发展,能力快速接近闭源产品水平;2)“轻量化”,模型“性价比”快速提升;3)端侧模型发展,AI 硬件已经开始布局。这些都意味着 AI 大模型的发展在向着落地可行方向进发。 AI 生成视频:能力兑现有望加速。自从 2024 年 2 月 OpenAI sora演示视频放出,AI 视频领域的行业标准被显著提高,而经历 4 个多月的积累后,6-7 月国内外多个团队交出“类 sora”产品的首份答卷:国内有多次迭代、面向全球、快速商业化的快手可灵,从文本大模型发家的独角兽企业智谱;海外则有持续保持高生成质量的Runway Gen3 Alpha、有 3D 生成相关经验帮助的 Luma。这些产品的生成效果都比“前 sora 时代”的产品有显著提升,预示着 AI视频领域的预期或加速兑现。 语音功能:或助推 AI 产品迭代。GTP-4o 的高级语音功能已经在 7月底开始小范围测试,这一功能使得 AI 可以从用户语音中获得情感、语调等更丰富的信息,回应时也可以体现出语调等更丰富的表达,且交互延迟小、可被打断,AI 语音交互的体验预计有显著提升。该领域 AI 技术的发展有望对教育、情感陪伴等应用场景的使用有改进效果,对人机交互体验提升将有所帮助。 风险提示:AI 应用推进放缓,AI 相关商业化落地不及预期,生成式内容监管风险。 行业深度研究 请务必阅读正文之后的免责条款部分 2 of 23 目录 1. 大模型侧:开源能力快速提升,轻量化趋势显著 ....................................... 3 1.1. 趋势一:开源模型发展,能力快速接近闭源产品水平 ........................ 3 1.2. 趋势二:“轻量化”,模型“性价比”快速提升 .................................... 4 1.3. 趋势三:端测模型发展,AI 硬件已经开始布局 ................................... 5 2. AI 生成视频:能力兑现有望加速 ................................................................. 7 2.1. sora 打破以往时长限制,树立行业标准 ................................................. 7 2.1.1. sora 的“高度一致性”、“60s 时长”为行业树立全新的标准 ............ 7 2.1.2. 采用 DiT 思路,大规模训练下体现出“涌现”能力 .......................... 8 2.2. 6 月以来多家“AI 视频”产品推出,产业呈现加速发展 ......................... 9 2.3. 快手可灵:已有多次升级,面向全球并尝试商业化 .......................... 10 2.4. 智谱“清影”:AI 大模型团队的“视频”领域尝试 .................................. 11 2.5. Runway Gen-3 Alpha:视频领域“老将”,继续画质领跑 .................... 13 2.6. Luma Dream Machine:3D 资产经验助力“AI 视频”拓展 .................... 13 3. 语音功能:或助推 AI 产品迭代 .................................................................. 15 3.1. 以 GPT-4o 语音为代表,相比传统 TTS 信息更多 ............................... 15 3.1.1. GPT4-o:无延迟对话、理解和表达情感 ....................................... 15 3.1.2. 字节跳动 Seed-TTS:可在表现力上接近人类水平 ...................... 16 3.1.3. ChatTTS:流畅语音合成,可预测和控制细粒度的韵律特征 ..... 17 3.2. 应用端:可显著提升教育和情感陪伴应用体验 .................................. 18 3.2.1. 口语等教学场景质量有望提升 ....................................................... 18 3.2.2. 情感陪伴:有望增加情感认同及潜在付费点 ............................... 20 4. 投资建议 ..................................................................................
AI行业深度更新报告:大模型“开源、轻量、端侧”化,视频与语音加速落地,点击即可下载。报告格式为PDF,大小3.73M,页数23页,欢迎下载。



