计算机行业专题报告:多模态技术落地再加速
计算机 / 行业专题报告 / 2025.06.02 请阅读最后一页的重要声明! 多模态技术落地再加速 证券研究报告 投资评级:看好(维持) 最近 12 月市场表现 分析师 杨烨 SAC 证书编号:S0160522050001 yangye01@ctsec.com 分析师 李宇轩 SAC 证书编号:S0160524080001 liyx02@ctsec.com 相关报告 1. 《算电协同正在催生“东数西算”新模式》 2025-05-25 2. 《网证网号政策发布,全面推广在即》 2025-05-25 3. 《AI 算力:数字经济的基石,大国博弈的焦点》 2025-05-18 核心观点 多模态技术再迎“奇点”时刻。谷歌发布视频生成模型 Veo 3,让 AI 视频角色开口说话。Veo 3 已内嵌入谷歌的影视制作工具 Flow,可赋能电影制作人和内容创作者工作流,Flow 支持用户创建场景、管理素材、编辑故事情节并控制镜头运动。当前需要订阅 Google Gemini 的 AI Ultra(每月 249.99 美元)才能使用 Veo 3。我们认为,Veo 3 带来了多模态发展的“奇点”,AI 生成视频商业化进程被极大加速,对推理算力的需求也将进一步推升。豆包视频通话面向C 端开放,视觉理解、记忆、推理能力强,我们认为其视觉理解模型相比传统视觉分析增加了推理与生成反馈,在 C 端可以用于端测拍摄问答(手机、AI眼镜等),也可用于屏幕内容的分析推理(作为办公 Agent 的视觉功能);在 B端可以作为工业领域的场景、物体识别,可用于输出带有分析结论的文本报告。 视频生成赛道竞争胶着,商业化曙光已现。视频生成产品迭代较快,今年以来 Pika、海螺走弱,而谷歌、快手走强,快手新发布的 Kling 系列视频生成模型迅速获得了约 30%的使用份额,尤其是 Kling-2.0-Master 在 2025 年 4 月底推出仅三周后便占据了 Poe 所有视频生成的 21%。5 月 29 日,快手可灵发布 2.1 版本,在 2.0 大师版的基础上可生成质量更高、运动幅度更大的 1080p视频。1Q2025,快手可灵实现收入 1.5 亿元,超过了去年 7 月到今年 2 月可灵的收入总和。此外,Vidu、海螺 AI、Runway 等视频生成公司依然保持了领先的技术优势,进一步将功能引入创意工作流,随着 Veo 3 技术跃进式催化,推动向影视、广告等领域商业化落地加速。 投资建议:多模态技术落地再加速,将促进此前在 AI 视频生成、编辑等生产力工具领域深入布局的公司商业化进程,建议关注:快手-W、阿里巴巴-W、腾讯控股、万兴科技、美图公司、Adobe、Meta 等。 风险提示:技术迭代不及预期;商业化落地不及预期;政策支持不及预期;全球宏观经济风险。 单击或点击此处输入文字。 -16%-1%15%31%46%62%计算机沪深300上证指数 谨请参阅尾页重要声明及财通证券股票和行业评级标准 2 行业专题报告/证券研究报告 1 多模态技术再迎“奇点”时刻 ................................................................................................................... 3 谷歌 Veo 3 推动 AI 视频进入“音画同步”时代 ................................................................................. 3 豆包发布视频通话功能,AI 视觉理解与交互加速落地 ................................................................. 5 2 视频生成赛道竞争胶着,商业化曙光已现 ........................................................................................... 6 视频生成模型中外各领风骚,谷歌、快手成为近期“黑马” ........................................................... 6 实测体验:视频一致性、稳定性明显提升,指令跟随、物理规律理解仍偏弱 ........................... 7 3 投资建议 ................................................................................................................................................. 11 4 风险提示 ................................................................................................................................................. 12 图 1. 谷歌发布 Veo 3 实现生成视频人物开口说话 ..................................................................................... 3 图 2. Veo 文生视频技术框架 .......................................................................................................................... 4 图 3. 谷歌为视频生成音频技术框架 ............................................................................................................. 5 图 4. 豆包视频通话应用场景 ......................................................................................................................... 5 图 5. 视频生成领域活跃度竞争格局 ............................................................................................................. 6 图 6. 在 Huggingface 上 Vbench 提出了评价视频生成模型的参考标准 .................................................. 7 图 7. 快手
[财通证券]:计算机行业专题报告:多模态技术落地再加速,点击即可下载。报告格式为PDF,大小2.42M,页数13页,欢迎下载。