AI行业深度更新报告：大模型“开源、轻量、端侧”化，视频与语音加速落地

请务必阅读正文之后的免责条款部分股票研究行业深度研究证券研究报告股票研究 / [Table_Date] 2024.08.08 大模型“开源、轻量、端侧”化，视频与语音加速落地 [Table_Industry] 传播文化业 [Table_Invest] 评级：增持上次评级: 增持 [Table_Report] 相关报告传播文化业《多个知名 IP 获批进口版号，GPT-4o语音功能推进》2024.08.04 传播文化业《GPT-4o 语音、视频模式测试，可提升教育、情感陪伴体验》2024.08.01 传播文化业《快手可灵推出付费会员，PixVerseV2 全面升级》2024.07.28 传播文化业《快手可灵全球上线并升级，AI 视频工具或迎加速发展》2024.07.25 传播文化业《《抓娃娃》引燃观影热情，多款头部影片待映》2024.07.20 ——AI 行业深度更新报告 [table_Authors] 陈筱(分析师) 杨昊(分析师) 021-38675863 021-38032025 chenxiao@gtjas.com yanghao029514@gtjas.com 登记编号 S0880515040003 S0880524020001 本报告导读：大模型能力提升阶段性放缓之际，我们提示关注“AI 落地”进展：如大模型侧“开源”“轻量”“端侧”化趋势显著，视频、音频等领域 AI 自 6 月以来更新频出。投资要点： [Table_Summary] 继续看好 AI 技术发展对内容产业的推动作用。随着 AI 大模型开源化、轻量化，以及视频和语音等模态的快速进步，部分应用场景有望发生变化，可沿如下思路进行布局：1）游戏等应用改造，推荐吉比特、恺英网络、完美世界、美图公司，受益标的腾讯控股、网易、快手、巨人网络；2）教育赛道，受益标的南方传媒、皖新传媒、世纪天鸿；3）情感陪伴与社交，受益标的昆仑万维、盛天网络。大模型侧：开源能力快速提升，轻量化趋势显著。2024 年以来，大模型发展呈现三大趋势：1）开源模型发展，能力快速接近闭源产品水平；2）“轻量化”，模型“性价比”快速提升；3）端侧模型发展，AI 硬件已经开始布局。这些都意味着 AI 大模型的发展在向着落地可行方向进发。 AI 生成视频：能力兑现有望加速。自从 2024 年 2 月 OpenAI sora演示视频放出，AI 视频领域的行业标准被显著提高，而经历 4 个多月的积累后，6-7 月国内外多个团队交出“类 sora”产品的首份答卷：国内有多次迭代、面向全球、快速商业化的快手可灵，从文本大模型发家的独角兽企业智谱；海外则有持续保持高生成质量的Runway Gen3 Alpha、有 3D 生成相关经验帮助的 Luma。这些产品的生成效果都比“前 sora 时代”的产品有显著提升，预示着 AI视频领域的预期或加速兑现。语音功能：或助推 AI 产品迭代。GTP-4o 的高级语音功能已经在 7月底开始小范围测试，这一功能使得 AI 可以从用户语音中获得情感、语调等更丰富的信息，回应时也可以体现出语调等更丰富的表达，且交互延迟小、可被打断，AI 语音交互的体验预计有显著提升。该领域 AI 技术的发展有望对教育、情感陪伴等应用场景的使用有改进效果，对人机交互体验提升将有所帮助。风险提示：AI 应用推进放缓，AI 相关商业化落地不及预期，生成式内容监管风险。行业深度研究请务必阅读正文之后的免责条款部分 2 of 23 目录 1. 大模型侧：开源能力快速提升，轻量化趋势显著 ....................................... 3 1.1. 趋势一：开源模型发展，能力快速接近闭源产品水平 ........................ 3 1.2. 趋势二：“轻量化”，模型“性价比”快速提升 .................................... 4 1.3. 趋势三：端测模型发展，AI 硬件已经开始布局 ................................... 5 2. AI 生成视频：能力兑现有望加速 ................................................................. 7 2.1. sora 打破以往时长限制，树立行业标准 ................................................. 7 2.1.1. sora 的“高度一致性”、“60s 时长”为行业树立全新的标准 ............ 7 2.1.2. 采用 DiT 思路，大规模训练下体现出“涌现”能力 .......................... 8 2.2. 6 月以来多家“AI 视频”产品推出，产业呈现加速发展 ......................... 9 2.3. 快手可灵：已有多次升级，面向全球并尝试商业化 .......................... 10 2.4. 智谱“清影”：AI 大模型团队的“视频”领域尝试 .................................. 11 2.5. Runway Gen-3 Alpha：视频领域“老将”，继续画质领跑 .................... 13 2.6. Luma Dream Machine：3D 资产经验助力“AI 视频”拓展 .................... 13 3. 语音功能：或助推 AI 产品迭代 .................................................................. 15 3.1. 以 GPT-4o 语音为代表，相比传统 TTS 信息更多 ............................... 15 3.1.1. GPT4-o：无延迟对话、理解和表达情感 ....................................... 15 3.1.2. 字节跳动 Seed-TTS：可在表现力上接近人类水平 ...................... 16 3.1.3. ChatTTS：流畅语音合成，可预测和控制细粒度的韵律特征 ..... 17 3.2. 应用端：可显著提升教育和情感陪伴应用体验 .................................. 18 3.2.1. 口语等教学场景质量有望提升 ....................................................... 18 3.2.2. 情感陪伴：有望增加情感认同及潜在付费点 ............................... 20 4. 投资建议 ..................................................................................

立即下载

综合

2024-08-10

23页

3.73M

AI行业深度更新报告：大模型“开源、轻量、端侧”化，视频与语音加速落地，点击即可下载。报告格式为PDF，大小3.73M，页数23页，欢迎下载。

本报告共23页，只提供前10页预览，清晰完整版报告请下载后查看，喜欢就下载吧！

立即下载

本报告共23页，只提供前10页预览，清晰完整版报告请下载后查看，喜欢就下载吧！

立即下载

水滴研报所有报告均是客户上传分享，仅供网友学习交流，未经上传用户书面授权，请勿作商用。

AI行业深度更新报告：大模型“开源、轻量、端侧”化，视频与语音加速落地

关于我们

联系我们

AI行业深度更新报告：大模型“开源、轻量、端侧”化，视频与语音加速落地

关于我们

联系我们

小程序

公众号