人工智能研究框架:大模型白热化,应用加速分化

11中邮证券人工智能研究框架:大模型白热化,应用加速分化证券研究报告行业投资评级:强于大市|维持陈涵泊/李佩京/王思中邮证券研究所 人工智能团队发布时间:2025-09-032投资要点大模型:加速多模态研发,闭源模型逐步逆袭开源。多模态技术路线尚未收敛,国内外大模型厂商持续刷新SOAT。图片领域,GPT-4o图像生成功能引发热潮后,谷歌Gemini 2.5 Flash Image登顶多主流图像榜,Meta也从Midjourney授权AI图像模型;视频领域,阿里字节等刷新能力高度,谷歌将视频模型推进至实时交互通用世界模型阶段。Deepseek开源浪潮推动模型平权与应用加速,浪潮后闭源模型逐渐维持性能领先,且借开源策略打造生态入口。一方面,预训练模型Scalling Law增速放缓使闭源与开源模型性能差距收窄,但OpenAI、谷歌等闭源厂商凭资源、人才与技术积累仍领先;另一方面,闭源厂商推行“开源+闭源”协同,保留主模型闭源优势的同时,开源上一代或轻量模型,激活开发者并反哺自身闭源模型以维持领先。算力:海内外资本开支提振,芯片厂加速推出新版本芯片。海外微软、谷歌、Meta、亚马逊四者合计资本开支在2023Q3后连续多个季度环比上升,同时上调资本开支指引;国内CSP厂商在大模型取得重要突破、比肩海外之时,也需通过大量资本开资缩小与海外差距。为了满足海内外CSP资本开支放量需求,GPU、ASIC竞相角逐新品研发。1)传统芯片大厂:英伟达芯片架构正在由Blackwell向Rubin过渡;AMD MI350系列对标GB200,MI400系列计划为26年新型服务器“Helios”的基础;华为云CloudMatrix 384通过多卡互联实现性能弯道超车。2)云端巨头自研ASIC:根据TrendForce集邦咨询,AI Server需求带动北美四大CSP加速自研ASIC芯片,平均1~2年就会推出升级版本;国内阿里、百度、腾讯等亦推出自研ASIC方案。应用:海外应用加速分化,聚焦与数据结合的复杂toB场景。复盘今年美股AI应用表现,行情有所分化,股价涨幅较好的公司体现在:具备显著的行业Know-how壁垒,同时AI赋能业务放量增长。例如,以PLTR为代表的toB企业,其股价走强的核心逻辑在于AI产品深度赋能主业(如AI提升服务效率,或拓展高价值客户场景),直接推动营收规模快速增长,这一特征在toB领域因商业场景更易落地而表现得尤为显著。to C企业中,创意类挤压工具类、AI替代性显现,多模态大模型推动其从“辅助工具”进化为懂需求、能创方案的“创意伙伴”,既强化替代优势,又以低学本、快产出吸引客户,逼近传统专业工具价值核心。投资建议:建议关注:1)AI Agent:鼎捷数智、视源股份、泛微网络、致远互联、金蝶国际、用友网络、汉得信息、赛意信息、迈富时、光云科技、税友股份、润达医疗、同花顺、恒生电子、金山办公、万兴科技、福昕软件、科大讯飞、金桥信息、卓易信息、普元软件等;2)AI终端:云天励飞、虹软科技、小米集团、联想集团、科大讯飞、乐鑫科技、中科蓝讯等;3)AI算力:寒武纪、云天励飞、亿都(国际控股)、工业富联、浪潮信息、曙光数创、超讯通信、华丰科技、神州数码、软通动力、烽火通信、广电运通、拓维信息、四川长虹等;4)AI多模态:万兴科技、虹软科技、当虹科技、中科创达、大华股份、海康威视、漫步者、萤石网络、汉仪股份、美图公司、云从科技等。风险提示:地缘政治冲与贸易风险、技术迭代不及预期、国内AI Agent商业化进展不及预期、算力供应不及预期、行业竞争加剧风险等。请参阅附注免责声明3算力:海内外资本开支提振,芯片厂加速推出新版本芯片二投资建议与风险提示四目录一大模型:加速多模态研发,闭源模型逐步逆袭开源应用:海外应用加速分化,聚焦与数据结合的复杂toB场景三44一大模型:加速多模态研发,闭源模型逐步逆袭开源1.1 多模态技术尚未收敛,国内外大厂涌入刷新SOAT1.2 经历开源浪潮后,闭源模型逐渐开始维持性能领先优势51.1.1 多模态技术尚未收敛,生成视频、多模态实时交互为未来方向多模态大模型融合了多种感知路径和表达形态,能够同时处理文本、图像、语音等多种数据,并进行深度的语义理解和交叉模态处理,具备深度人机交互和全面智能应用的潜力。当前,多模态大模型主要分为理解和生成两种类型,技术路线尚未收敛,成为国内外大模型厂商重点突破方向之一。多模态理解模型:多模态理解模型对齐视觉特征与文本特征实现跨模态的统一理解,分为以下两类技术路线:1)一方面,基于语言大模型底座,配合多类外部专家模型共同实现多模态处理;2)另一方面,通过跨模态特征对齐学习,实现多模态输入的统一和融合,例如OpenAI的CLIP模型通过对比学习,将图像与文本通过各自的与训练模型获得的编码向量在向量空间上对齐,从而理解和推理图像和文本之间的关系。多模态生成:多模态生成模型基于对不同模态信息的理解,具备文本、图像、视频、语音信息的生成能力,分为两类技术路线:1)一方面,DiT结合扩散模型与Transformer优势,成为视频生成模型主流架构;2)另一方面,端到端统一多模态架构,实现跨模态生成与实时交互响应,例如GPT-4o与Gemini均采用端到端原生多模态单体模型的方式学习文本、视觉、语音等不同模态的统一表征,实现跨模态实时交互响应。图表1:多模态模型技术路线表资料来源:中国信通院《人工智能发展报告(2024年)》,中邮证券研究所请参阅附注免责声明类型路线典型多模态理解语言大模型调度微软 Visual ChatGPT谷歌 PaLM-E跨模态特征对齐OpenAI CLIP微软 KOSMOSDeepMind FlamingoSalesforce BLIP多模态生成扩散模型Stability Al Stable DiffusionOpenAI DALL.EOpenAl Sora快手 KLINGRunway Gen-3端到端理解与生成架构谷歌 GeminiOpenAI GPT-4o61.1.2 国内外大厂积极涌入多模态赛道,图片&视频陆续刷新SOAT图片:继GPT-4o原生图像生成功能掀起使用热潮后,谷歌最新Gemini 2.5 Flash Image迅速登顶多个主流图像排行榜;Meta也宣布将从初创企业Midjourney授权AI图像模型,以跟随OpenAI与谷歌步伐。3月底,GPT-4o集成多模态原生图像生成功能,效果良好引爆用户使用热情。GPT-4o原生图像生成,意味着图像生成不再依赖于单独的DALL-E 3模型,而是直接集成到了GPT-4o的核心能力中,这种集成带来了更流畅的用户体验和更强大的图像生成、修改能力,具备更好的文本集成、增强的上下文理解、改进的多对象绑定、多样化风格适应等优势。得益于超预期的效果,GPT-4o原生图像功能上线不到72小时,OpenAI CEO奥特曼宣布ChatGPT图像生成功能开始暂时受限。8月底,谷歌发布了最新的图像生成和编辑模型Gemini 2.5 Flash Image,成为新晋性能冠军,单图片生成成本仅0.039美元。2.5 Flash Image相较2.0 Flash Image,

立即下载
信息科技
2025-09-04
中邮证券
李佩京,陈涵泊,王思
31页
3.67M
收藏
分享

[中邮证券]:人工智能研究框架:大模型白热化,应用加速分化,点击即可下载。报告格式为PDF,大小3.67M,页数31页,欢迎下载。

本报告共31页,只提供前10页预览,清晰完整版报告请下载后查看,喜欢就下载吧!
立即下载
本报告共31页,只提供前10页预览,清晰完整版报告请下载后查看,喜欢就下载吧!
立即下载
水滴研报所有报告均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。
相关图表
图 16: TRAE 自定义 Agent 功能演示
信息科技
2025-09-03
来源:计算机行业深度:AI编程革命重塑软件开发生态
查看原文
图 15: 通义灵码 NES 智能预测功能演示(以优化重构为例)
信息科技
2025-09-03
来源:计算机行业深度:AI编程革命重塑软件开发生态
查看原文
图 14: 通义灵码 Agent 模式应用开发功能演示(以开发记账本 APP 为例)
信息科技
2025-09-03
来源:计算机行业深度:AI编程革命重塑软件开发生态
查看原文
图 13: 中国可用的 AI Coding 工具
信息科技
2025-09-03
来源:计算机行业深度:AI编程革命重塑软件开发生态
查看原文
图 12: Cursor 功能演示(代码补全、问答智能体)
信息科技
2025-09-03
来源:计算机行业深度:AI编程革命重塑软件开发生态
查看原文
图 11: GitHub Copilot 功能演示:Agent 智能体
信息科技
2025-09-03
来源:计算机行业深度:AI编程革命重塑软件开发生态
查看原文
回顶部
报告群
公众号
小程序
在线客服
收起