2025上半年AI核心成果及趋势报告-量子位
2025上半年AI核心成果及趋势报告2025.7 量子位智库 QbitAI Insights 分析师 Xuanhao xuanhao@qbitai.com序⾔2• ⼈⼯智能可能是⼈类有史以来最重要的发明,我们也正在见证AI的飞速发展,技术突破与场景落地交织推动着⾏业加速演进。量⼦位智库将在本报告中为⼤家介绍2025年上半年,AI领域的关键动态和趋势,旨在为决策者、从业者和创新者提供前沿洞察,帮助他们在竞争激烈的⽣态中把握机遇。本报告将从应用、模型、技术、⾏业4个⽅面进⾏展开:• 应用趋势:包括通用类Agent开始进⼊主流、垂类Agent开始涌现、AI编程获得市场验证⾼速增长、模型上下⽂协议(MCP)获得⾏业关注等应用侧核⼼变化• 模型趋势:包括推理模型能⼒进步、⼯具使用能⼒落地、模型多模态能⼒增强、小模型加速应用普及、模型评估加速演化等模型层面的核⼼变化• 技术趋势:包括模型不同训练阶段的重⼼变化、强化学习的重要性、多智能体(Multi-Agent)系统和在线学习的优势、新型模型架构迭代和应用情况等技术范式的核⼼变化• ⾏业趋势:主要介绍AI领域的⾏业核⼼动态,包括头部玩家在模型层的差距正在缩小、 OpenAI领先优势缩小,⾕歌和xAI在上半年的竞争中迎头赶上、中美⼤模型的竞争差距缩小、AI编程成为目前必争之地等核⼼动态01 应用趋势目录02模型趋势03技术趋势04⾏业趋势AI⾏业发展的底层逻辑是技术范式带来更强的模型能⼒,进⽽解锁更⼤的应用空间,加速价值创造5信息来源:量⼦位智库应用趋势模型趋势技术趋势⾏业趋势2023聊天机器⼈• 推理算⼒(Test time compute)• 后训练(强化学习/⼯具使用)• 预训练(数据优化/算法效率(如MoE)/多模态)技术要素模型应用向上支撑• 海外:o1/o3,Gemini 2.5 Pro,Grok 4,Claude 4• 国内:千问3,⾖包1.6,Kimi K2,Minimax M1,智谱等• 后训练(RLHF)• 预训练代表产品• ChatGPT Agent• Manus• Deep Research• Cursor• Multi-Agent• 在线学习• 世界模型• GPT-4代表产品• ChatGPT• Character.ai• Perplexity• 下⼀代⼤模型经济价值模型能⼒数据分析师客服程序员设计/创作市场营销科学家律师销售20242025Agent20262027创新者通用类Agent产品深度整合⼯具使用,主打完成场景多样的深度研究类任务,交付内容更加丰富,成为2025上半年应用亮点交付内容深度6信息来源:量⼦位智库• ⽂字,仅通过对话可以完成的简单任务,例如草拟简单的⽂字模版和语⾔翻译聊天机器⼈阶段Agent核⼼技术• 预训练模型• RLHF• SFT监督对齐• 检索互联⽹:搜索数⼗个甚⾄上百个信息源获取充⾜信息• 调用⼯具获取数据:例如连接数据库获得准确、丰富的信息• 深度⽣成:可以⽣成详尽完整的数千字深度报告• Agent Planing框架:基于提示词和context对任务进⾏分解,⽣成执⾏步骤⼯作量• 完成数分钟⼈类⼯作量,辅助完成知识类任务• 完成数小时⼈类⼯作量,自动化部分⽣产⼒案例LLM⼯具记忆环境• ⼯具调用:调⽤或集成现有软件,如API 、搜索引擎、数据库• 记忆能⼒:包括长期和短期的记忆能⼒,对话历史、⽂件知识库等• 沙盒环境:Agent具体执⾏任务的安全云端环境交付形式⽂字报告图⽂报告视频素材⽹页⽂件PPT应用趋势模型趋势技术趋势⾏业趋势以视觉操作为核⼼的Computer Use Agent(CUA)开始推向市场,代表了通用类Agent的另⼀条路径,正在与基于⽂本的深度研究类Agent融合7CUA技术示意图分析• CUA的基本原理是通过截取屏幕图像,利用模型的视觉能⼒,识别图形用户界面(GUI)中的按钮、菜单、⽂本字段等元素,通过虚拟光标和键盘输⼊与界面交互,执⾏点击、输⼊⽂本、滚动等操作• 多样化⼯具使用:让AI模拟⼈是AI接⼊互联⽹最快的⽅式,可以解决当前AI⼯具能⼒匮乏的问题,商业上也可以加快落地,应用基本⽆需改造即可让AI使用• 打破数据孤岛:CUA能够访问到在不同应用上的所有信息,收集更多context,帮助用户作出更智能的决策• 运⾏成本⾼:依赖模型的视觉能⼒,图片处理导致成本较⾼;异步化难:CUA技术依赖屏幕截取,需要将计算机控制权交给AI(沙盒化虚拟机除外), C端场景下⽆法自动的完成身份验证;准确率不⾼:CUA 在简单⽹页任务上表现优异,但在复杂本地操作中仍有短板优势局限信息来源:量⼦位智库,OpenAI应用趋势模型趋势技术趋势⾏业趋势受益于⼤模型在语义理解、多模态等⽅面的能⼒提升,垂直应用场景开始Agent化,自然语⾔操控功能正在成为垂类⼯作流的⼀部分8旅⾏• 飞猪推出“问⼀问”功能,多个Agent协同⼯作,例如路线制定、交通票务查询、出⾏攻略以及酒店规划等Agent相互协同• 可用自然语⾔在对话框提出、更改各类出⾏需求设计• 以自然语⾔交互为核⼼,同时整合⼤量专业设计功能,重塑传统视觉的⼯作流,⼀句话即可⽣成接近⽣产级的海报或视频• 以自然语⾔交互为核⼼,通过简单语⾔和图片输⼊,视频创作Agent就能自动分析、构思并⽣成具有专业⽔准、富有观看价值的完整内容,提升了创作效率创作时尚• 通过自然语⾔描述可以⽣成时尚穿搭,匹配相应的⽣活、⼯作、娱乐场景,让用户看到整体穿搭效果,也可以通过自然语⾔和用户图片⼀键⽣成成套搭配• 技术基础:⼤模型能⼒提升,可以准确调用⼯具查询数据(例如机票、酒店信息),指令遵循能⼒增强可以理解用户意图• 技术基础:图像⽣成模型能⼒提升,仅通过自然语⾔就能实现精准的图片⽣成和编辑(例如GPT-4o和Gemini的图像⽣成模型,以及其他3D资产⽣成模型)• 技术基础:新⼀代视频⽣成模型有更强的指令遵循、语义理解能⼒和编辑灵活度,⽣成视频的物理规律理解、对象⼀致性更佳• 技术基础:数字⼈技术的成熟、⼤模型语义理解能⼒和世界知识的增强,模型美学效果提升应用趋势模型趋势技术趋势⾏业趋势AI编程成为当前最核⼼的垂类应用领域,正在从源头改变软件⽣产⽅式,头部编程应用收⼊增长速度创纪录,获得市场有效验证不同应用达到5亿美元年收⼊所需时间9信息来源:量⼦位智库,1)Annual Recurring Revenue,年度经常性收⼊分析2年4年6年8年10年12年14年5亿4亿3亿2亿1亿• Cursor ARR1 突破5亿美⾦,证明了AI编程的价值空间,产品演化⼤概分为以下⼏个阶段:1• 代码补全:通过理解代码上下⽂,预测用户的下⼀步编辑,主要是向后补全2• 单⽂件代码编辑:根据最近的修改和上下⽂,提供跨越多⾏的代码建议,适用于编辑单个⽂件或特定区域3• 多⽂件同时编辑:自动检索上下⽂,通过自定义的检索模型能够理解整个代码库,减少用户⼿动提供上下⽂的需要。可自动编写运⾏终端命令,创建、删除和修改⽂件,完成更复杂任务4• 端到端交付:后台运⾏任务,保留用户接管能⼒,适合并⾏处理多个任务,全流程云端容器化,用户聚焦验证和优化应用趋势模型趋势技术趋势⾏业趋势自动化程度增加模型上下⽂
2025上半年AI核心成果及趋势报告-量子位,点击即可下载。报告格式为PDF,大小13.45M,页数35页,欢迎下载。