中文大模型基准测评2025年上半年报告

中文大模型基准测评2025年上半年报告 2025.08.04—— 2025年中文大模型阶段性进展半年度评估SuperCLUE团队精准量化通用人工智能(AGI)进展,定义人类迈向AGI的路线图Accurately Quantifying the Progress of AGI, Defining the Roadmap for Humanity's Journey towards AGI.一、2025年上半年关键进展及趋势1. 2025年上半年大模型关键进展 2. 2025年最值得关注的中文大模型及智能体全景图3. 2025年国内外大模型差距4. 近一年SuperCLUE通用基准测评开闭源模型最好成绩对比报 告 目 录四、专项测评基准介绍1. Agent系列基准介绍2. 多模态系列基准介绍3. 文本系列基准介绍4. 推理系列基准介绍5. 性能系列基准介绍二、七月通用测评介绍1. SuperCLUE基准介绍 2. SuperCLUE大模型综合测评体系3. SuperCLUE通用测评基准数据集及评价方式 4. 各维度测评说明及示例5. 测评模型列表三、总体测评结果与分析1. SuperCLUE模型象限(202507)2. SuperCLUE通用能力测评榜单3. SuperCLUE性价比区间分布4. SuperCLUE大模型综合效能区间分布 5. 代表性模型分析6. 国内大模型成熟度-SC成熟度指数7. 评测与人类一致性验证3SuperCLUE全球大模型中文综合能力排行榜(2025年7月)本次测评包括六大任务:数学推理、科学推理、代码生成(含web开发)、智能体Agent (多轮工具调用)、幻觉控制、精确指令遵循。题目量为1288道新题,最终得分取各任务平均分。•o3以73.78的总分取得总榜第一,领跑全球。海外头部模型o3、o4-mini(high)和Gemini-2.5-Pro在本次七月通用基准测评中取得了73.78分、73.32分和68.98分的总成绩,分别位于榜单前三。Doubao-Seed-1.6-thinking-250715以68.04的总分取得国内第一、全球第四的成绩。•国内外头部模型之间的差异较大,海外模型在推理任务上的优势尤其明显。海外模型在推理任务上的优势尤其显著,o3和o4-mini(high)在推理任务上分别取得了75.02和72.68的分数,领跑推理任务榜单。国内推理任务成绩最好的模型分别是DeepSeek-R1-0528和Doubao-Seed-1.6-thinking-250715,均有超过65分的表现,但与海外头部模型依旧相差近10分。•国内开源模型相较于海外开源模型优势显著。DeepSeek-R1-0528、Qwen3-235B-A22B-Thinking-2507和GLM-4.5分别以66.15分、64.34分和63.25分取得了开源榜单的前三名,海外开源模型最好成绩仅有46.37分,与国内开源模型最好成绩相差近20分,国内开源模型的优势显著。•国内大模型在智能体Agent和幻觉控制任务上的表现良好。在智能体Agent任务上,Doubao-Seed-1.6-thinking-250715以90.67分领跑全球,GLM-4.5和SenseNova V6 Reasoner以83.58分并列国内第二。在幻觉控制任务上,Doubao-Seed-1.6-thinking-250715、ERNIE-X1-Turbo-32K-Preview和Hunyuan-T1-20250711分别位于国内前三。•Qwen3系列的开源小参数量模型表现亮眼。Qwen3系列的多款开源小参数量模型展现出惊人潜力。其中8B、4B和1.7B版本分别在10B级别和端侧5B级别的榜单中遥遥领先。4大 模 型 性 价 比 区 间 分 布推理模型推理效能 区 间 分 布数 据 来 源 : SuperCLUE, 2025年 7月 31日 ; 开 源 模 型 如 Q wen3-235B-A22B(T hinking)使 用 方 式 为 API,价 格 信 息 均 来 自 官 方 信 息 。 部 分 模 型 A P I 的 价 格 是 分 别 基 于 输 入 和 输 出 的 t o k e n s 数 量 确 定 的 。 这 里 我 们依 照 输 入 t o k e n s 与 输 出 t o k e n s 3 : 1 的 比 例 来 估 算 其 整 体 价 格 。 价 格 信 息 取 自 官 方 在 7 月 的 标 准 价 格( 非 优 惠 价 格 ) 。数 据 来 源 : SuperCLUE, 2025年 7月 31日 ;模 型 推 理 速 度 选 取 7月 测 评 中 具 有 公 开 API的 模 型 。 平 均 推 理 时 间 为 所 有 测 评 数 据 推 理 时 间 的 平 均 值 ( 秒 ) 。推 理 任 务 得 分 为 推 理 任 务 总 分 : 数 学 推 理 、 科 学 推 理 和 代 码 生 成 的 平 均 分 。5第一部分 2025年上半年关键进展及趋势1. 2025年上半年大模型关键进展 2. 2025年最值得关注的中文大模型及智能体全景图3. 2025年国内外大模型差距4. 近一年SuperCLUE通用基准测评开闭源模型最好成绩对比关键进展时间多模态与深度推理拓展期2025年上半年大模型关键进展2022.122024.122023.12智能体崛起与AGI探索期技术引爆与生态构建期2025.077自2022年11月30日ChatGPT发布以来,AI大模型在全球范围内掀起了有史以来规模最大的人工智能浪潮。国内外AI机构在过去2年半有了实质性的突破。具体可分为:技术引爆与生态构建期、多模态与深度推理拓展期、智能体崛起与AGI探索期。· OpenAI发布ChatGPT及GPT-4,迅速点燃全球对大模型的关注并成为现象级应用;· Meta开源Llama2,激活开发者生态,降低技术门槛,推动全球长尾创新;· 中国首批大模型集中亮相。百度文心一言1.0、阿里通义千问、讯飞星火V1.0、360智脑、ChatGLM系列等快速响应,标志着中国进入核心竞争梯队;· 中国开源模型爆发。百川Baichuan-7B、智谱ChatGLM2、通义千问Qwen等形成“模型矩阵”,加速技术民主化。· OpenAI发布Sora,实现高质量时序连贯视频生成,引发全球视频AIGC创业潮;· OpenAI o1系列引入“慢思考”机制,AI大模型的发展重心进一步深化,开始攻克更复杂的推理和逻辑思考难题;· 国内多模态领域快速跟进与创新,并在部分领域领先海外。可灵AI、Vidu、Pixverse、海螺视频等视频生成模型陆续发布,并在海外取得较大的应用进展;· 国内推理模型集中涌现。k0-math、DeepSeek-R1-Lite、QwQ-32B-Preview、GLM-Zero-Preview等,力求在这些高价值场景取得突破。· 顶级大模型能力持续突破,性能与效率并进。o3、o4系列、Gemini 2.5系列、Claude 4系列、Grok 4等顶级模型发布,进一步提升了推理的深度、准确

立即下载
信息科技
2025-08-07
SuperCLUE团队
60页
25.88M
收藏
分享

[SuperCLUE团队]:中文大模型基准测评2025年上半年报告,点击即可下载。报告格式为PDF,大小25.88M,页数60页,欢迎下载。

本报告共60页,只提供前10页预览,清晰完整版报告请下载后查看,喜欢就下载吧!
立即下载
本报告共60页,只提供前10页预览,清晰完整版报告请下载后查看,喜欢就下载吧!
立即下载
水滴研报所有报告均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。
相关图表
翱捷科技分业务毛利率情况 图20:芯原股份整体毛利率及分业务毛利率
信息科技
2025-08-07
来源:电子行业点评报告:AI ASIC:海外大厂视角下,定制芯片的业务模式与景气度展望
查看原文
AIChip 与 GUC 2019-2024 年毛利率情况
信息科技
2025-08-07
来源:电子行业点评报告:AI ASIC:海外大厂视角下,定制芯片的业务模式与景气度展望
查看原文
博通、Marvell CY23Q4-25Q2 季度毛利率对比
信息科技
2025-08-07
来源:电子行业点评报告:AI ASIC:海外大厂视角下,定制芯片的业务模式与景气度展望
查看原文
Marvell 营收拆分情况
信息科技
2025-08-07
来源:电子行业点评报告:AI ASIC:海外大厂视角下,定制芯片的业务模式与景气度展望
查看原文
博通营收拆分情况
信息科技
2025-08-07
来源:电子行业点评报告:AI ASIC:海外大厂视角下,定制芯片的业务模式与景气度展望
查看原文
数据中心市场规模预测
信息科技
2025-08-07
来源:电子行业点评报告:AI ASIC:海外大厂视角下,定制芯片的业务模式与景气度展望
查看原文
ai总结
AI智能总结
本报告总结了2025年上半年中文大模型的测评结果,分析了国内外大模型的发展趋势和差距,并介绍了SuperCLUE测评基准的最新进展。 1. 海外模型o3以73.78分领跑全球榜单,国内模型Doubao-Seed-1.6-thinking-250715以68.04分排名国内第一,但国内外头部模型在推理任务上仍存在近10分的差距。 2. 国内开源模型表现优异,DeepSeek-R1-0528等模型在开源榜单中领先海外开源模型近20分,展现出显著优势。 3. 国内大模型在智能体Agent和幻觉控制任务上表现突出,Doubao-Seed-1.6-thinking-250715在智能体任务中以90.67分领跑全球。 4. Qwen3系列开源小参数量模型展现出惊人潜力,其8B、4B和1.7B版本在相应级别榜单中遥遥领先。 5. SuperCLUE测评基准持续更新,采用100%原创题库和Live更新机制,确保测评的独立性和时效性,为大模型研发提供重要参考。
热门报告
加入社群
回顶部
报告群
公众号
小程序
在线客服
收起