中文大模型基准测评2025年上半年报告

中文大模型基准测评2025年上半年报告 2025.08.04—— 2025年中文大模型阶段性进展半年度评估SuperCLUE团队精准量化通用人工智能（AGI）进展，定义人类迈向AGI的路线图Accurately Quantifying the Progress of AGI, Defining the Roadmap for Humanity's Journey towards AGI.一、2025年上半年关键进展及趋势1. 2025年上半年大模型关键进展 2. 2025年最值得关注的中文大模型及智能体全景图3. 2025年国内外大模型差距4. 近一年SuperCLUE通用基准测评开闭源模型最好成绩对比报告目录四、专项测评基准介绍1. Agent系列基准介绍2. 多模态系列基准介绍3. 文本系列基准介绍4. 推理系列基准介绍5. 性能系列基准介绍二、七月通用测评介绍1. SuperCLUE基准介绍 2. SuperCLUE大模型综合测评体系3. SuperCLUE通用测评基准数据集及评价方式 4. 各维度测评说明及示例5. 测评模型列表三、总体测评结果与分析1. SuperCLUE模型象限（202507）2. SuperCLUE通用能力测评榜单3. SuperCLUE性价比区间分布4. SuperCLUE大模型综合效能区间分布 5. 代表性模型分析6. 国内大模型成熟度-SC成熟度指数7. 评测与人类一致性验证3SuperCLUE全球大模型中文综合能力排行榜（2025年7月）本次测评包括六大任务：数学推理、科学推理、代码生成（含web开发）、智能体Agent （多轮工具调用）、幻觉控制、精确指令遵循。题目量为1288道新题，最终得分取各任务平均分。•o3以73.78的总分取得总榜第一，领跑全球。海外头部模型o3、o4-mini(high)和Gemini-2.5-Pro在本次七月通用基准测评中取得了73.78分、73.32分和68.98分的总成绩，分别位于榜单前三。Doubao-Seed-1.6-thinking-250715以68.04的总分取得国内第一、全球第四的成绩。•国内外头部模型之间的差异较大，海外模型在推理任务上的优势尤其明显。海外模型在推理任务上的优势尤其显著，o3和o4-mini(high)在推理任务上分别取得了75.02和72.68的分数，领跑推理任务榜单。国内推理任务成绩最好的模型分别是DeepSeek-R1-0528和Doubao-Seed-1.6-thinking-250715，均有超过65分的表现，但与海外头部模型依旧相差近10分。•国内开源模型相较于海外开源模型优势显著。DeepSeek-R1-0528、Qwen3-235B-A22B-Thinking-2507和GLM-4.5分别以66.15分、64.34分和63.25分取得了开源榜单的前三名，海外开源模型最好成绩仅有46.37分，与国内开源模型最好成绩相差近20分，国内开源模型的优势显著。•国内大模型在智能体Agent和幻觉控制任务上的表现良好。在智能体Agent任务上，Doubao-Seed-1.6-thinking-250715以90.67分领跑全球，GLM-4.5和SenseNova V6 Reasoner以83.58分并列国内第二。在幻觉控制任务上，Doubao-Seed-1.6-thinking-250715、ERNIE-X1-Turbo-32K-Preview和Hunyuan-T1-20250711分别位于国内前三。•Qwen3系列的开源小参数量模型表现亮眼。Qwen3系列的多款开源小参数量模型展现出惊人潜力。其中8B、4B和1.7B版本分别在10B级别和端侧5B级别的榜单中遥遥领先。4大模型性价比区间分布推理模型推理效能区间分布数据来源： SuperCLUE， 2025年 7月 31日；开源模型如 Q wen3-235B-A22B(T hinking)使用方式为 API，价格信息均来自官方信息。部分模型 A P I 的价格是分别基于输入和输出的 t o k e n s 数量确定的。这里我们依照输入 t o k e n s 与输出 t o k e n s 3 : 1 的比例来估算其整体价格。价格信息取自官方在 7 月的标准价格（非优惠价格）。数据来源： SuperCLUE， 2025年 7月 31日；模型推理速度选取 7月测评中具有公开 API的模型。平均推理时间为所有测评数据推理时间的平均值（秒）。推理任务得分为推理任务总分：数学推理、科学推理和代码生成的平均分。5第一部分 2025年上半年关键进展及趋势1. 2025年上半年大模型关键进展 2. 2025年最值得关注的中文大模型及智能体全景图3. 2025年国内外大模型差距4. 近一年SuperCLUE通用基准测评开闭源模型最好成绩对比关键进展时间多模态与深度推理拓展期2025年上半年大模型关键进展2022.122024.122023.12智能体崛起与AGI探索期技术引爆与生态构建期2025.077自2022年11月30日ChatGPT发布以来，AI大模型在全球范围内掀起了有史以来规模最大的人工智能浪潮。国内外AI机构在过去2年半有了实质性的突破。具体可分为：技术引爆与生态构建期、多模态与深度推理拓展期、智能体崛起与AGI探索期。· OpenAI发布ChatGPT及GPT-4，迅速点燃全球对大模型的关注并成为现象级应用；· Meta开源Llama2，激活开发者生态，降低技术门槛，推动全球长尾创新；· 中国首批大模型集中亮相。百度文心一言1.0、阿里通义千问、讯飞星火V1.0、360智脑、ChatGLM系列等快速响应，标志着中国进入核心竞争梯队；· 中国开源模型爆发。百川Baichuan-7B、智谱ChatGLM2、通义千问Qwen等形成“模型矩阵”，加速技术民主化。· OpenAI发布Sora，实现高质量时序连贯视频生成，引发全球视频AIGC创业潮；· OpenAI o1系列引入“慢思考”机制，AI大模型的发展重心进一步深化，开始攻克更复杂的推理和逻辑思考难题；· 国内多模态领域快速跟进与创新，并在部分领域领先海外。可灵AI、Vidu、Pixverse、海螺视频等视频生成模型陆续发布，并在海外取得较大的应用进展；· 国内推理模型集中涌现。k0-math、DeepSeek-R1-Lite、QwQ-32B-Preview、GLM-Zero-Preview等，力求在这些高价值场景取得突破。· 顶级大模型能力持续突破，性能与效率并进。o3、o4系列、Gemini 2.5系列、Claude 4系列、Grok 4等顶级模型发布，进一步提升了推理的深度、准确

立即下载

信息科技

2025-08-07

SuperCLUE团队

60页

25.88M

[SuperCLUE团队]:中文大模型基准测评2025年上半年报告，点击即可下载。报告格式为PDF，大小25.88M，页数60页，欢迎下载。

本报告共60页，只提供前10页预览，清晰完整版报告请下载后查看，喜欢就下载吧！

立即下载

本报告共60页，只提供前10页预览，清晰完整版报告请下载后查看，喜欢就下载吧！

立即下载

水滴研报所有报告均是客户上传分享，仅供网友学习交流，未经上传用户书面授权，请勿作商用。

相关图表

翱捷科技分业务毛利率情况图20：芯原股份整体毛利率及分业务毛利率

信息科技

2025-08-07