中文大模型基准测评2025年5月报告
中文大模型基准测评2025年5月报告 2025.05.28— 2025中文大模型阶段性进展5月评估SuperCLUE团队精准量化通用人工智能(AGI)进展,定义人类迈向AGI的路线图Accurately quantifying the progress of AGI, defining the roadmap for humanity's journey towards AGI.一、2025上半年度关键进展及趋势1. 2025年上半年大模型关键进展 2. 2025年最值得关注的中文大模型全景图3. 2025年国内外大模型差距二、5月通用测评介绍1. SuperCLUE基准介绍 2. SuperCLUE大模型综合测评体系3. SuperCLUE通用测评基准数据集及评价方式 4. 各维度测评说明及示例5. 测评模型列表 三、总体测评结果与分析1. SuperCLUE模型象限2. SuperCLUE通用能力测评榜单3. SuperCLUE-Agent:智能体测评分析4. SuperCLUE性价比区间分布5. SuperCLUE大模型综合效能区间分布 6. 国内大模型成熟度-SC成熟度指数7. 评测与人类一致性验证8. 开源模型榜单9. 10B级别小模型榜单10.端侧5B级别小模型榜单报 告 目 录报告摘要(一)•o4-mini(high)总分稳居第一,综合能力全面领先o4-mini(high)在本次5月测评中表现优异,总分达到70.51分,超过国内最好模型7.35分。该模型在推理、代码生成、智能体、指令遵循等多个方面表现出卓越的综合能力,特别是在代码生成(91.52)、指令遵循(68.07)方面得分较高。•国内推理模型崭露头角,部分领域优势突出Doubao-1.5-thinking-pro-205415、SenseNova V6 Reasoner等国内模型表现亮眼。其中,Doubao-1.5-thinking-pro-205415在文本创作与理解任务以81.04的高分领先其他模型。•国内大模型在指令遵循方面普遍低于海外模型Hunyuan-T1-20250403在国内模型中指令遵循得分第一,为36.97分,但是与海外模型指令遵循得分第一的o4-mini(high)相比,差距达到了31.1分,国内模型在指令遵循方面表现较弱,还有较大的提升空间。•小参数模型表现超出预期多款开源小参数量模型展现出惊人潜力。尤其是Qwen3系列,其中4B、8B和14B版本在推理任务上的分数均超过50分,超越了众多闭源大模型。3报告摘要(二)大 模 型 性 价 比 区 间 分 布大 模 型 推 理 效 能 区 间 分 布4数 据 来 源 : SuperCLUE, 2025年 5月 28日 ; 推 理 任 务 得 分 为 推 理 任 务 总 分 : 数 学 推 理 、 科 学 推 理 和 代 码 的 平 均分 。 开 源 模 型 如 Q wen3-32B(T hinking)使 用 方 式 为 API, 价 格 信 息 均 来 自 官 方 信 息 。注 : 部 分 模 型 API的 价 格 是 分 别 基 于 输 入 和 输 出 的 tokens 数 量 确 定 的 。 这 里 我 们 依 照 输 入 tokens 与 输 出 tokens 3:1 的 比 例 来 估 算 其 整 体 价 格 。 价 格 信 息 取 自 官 方 在 5月 的 标 准 价 格 ( 非 优 惠 价 格 ) 。数 据 来 源 : SuperCLUE, 2025年 5月 28日 ;模 型 推 理 速 度 选 取 5月 测 评 中 具 有 公 开 API的 模 型 。 平 均 推 理 时 间 为 所 有 测 评 数 据 推 理 时 间 的 平 均 值 ( 秒 ) 。推 理 任 务 得 分 为 推 理 任 务 总 分 : 数 学 推 理 、 科 学 推 理 和 代 码 生 成 的 平 均 分 。第一部分 2025上半年度关键进展及趋势1. 2025年上半年大模型关键进展 2. 2025年最值得关注的中文大模型全景图3. 2025年国内外大模型差距关键进展时间跃进期自2022年11月30日ChatGPT发布以来,AI大模型在全球范围内掀起了有史以来规模最大的人工智能浪潮。国内外AI机构在过去2年半有了实质性的突破。具体可分为:准备期、跃进期、繁荣期、深化期和融合期。2025上半年大模型关键进展2022.122023.062024.062024.122023.12SuperCLUE:AI大模型2025上半年关键进展深化期准备期•ChatGPT发布,全球范围内迅速形成大模型共识。繁荣期•GPT4发布,进一步掀起大模型研发热潮。•国 内 快 速 跟 进 大 模 型 研 发 。 文 心一言1.0、通义千问、讯飞星火、3 6 0 智 脑 、 C h a t G L M 等 首 批 模型相继发布。•G P T - 4 T ur bo 、 G e mini 等 海外 大 模 型 发 布 , 继 续 提 升 模 型性能。•国 内 闭 源 大 模 型 快 速 发 展 。 豆包、混元、商量3.0、盘古3.0、A n d e s G P T 、 B l u e L M 、 星 火3.0等陆续发布。•L l a m a 2 开 源 , 极 大 助 力 全 球 大模型开发者生态。•G P T - 4 o 、 C l a u d e 3 . 5 、Gemini1.5、Llama3发布,海外进入“一超多强”的竞争格局。•国 内 多 模 态 领 域 进 展 迅 速 , 在 部分 领 域 领 先 海 外 。 视 频 生 成 模 型可 灵 A I 、 海 螺 视 频 、 v i d u 、P i x V e r s e 等 模 型 陆 续 发 布 , 并在海外取得较大应用进展。•国 内 通 用 模 型 持 续 提 升 。Qwen2.5、文心4.0、GLM4、商量5.5等通用模型陆续更新。•O p e n A I 发 布 S o r a , 极 大 拓 展了AI在视频领域的想象力。•Googl e发布G e m i ni 2 . 0 系列模型,推出DeepResearch深度研究 功 能 以 及 众 多 海 外 推 理 模 型 的发 布 引 发 热 潮 , 推 理 性 能 大 幅 度提升。•国 内 推 理 模 型 持 续 跟 进 。 K 0 -m at h 、D e e p S e e k - R 1 - L i t e 、Q w Q - 3 2 B - P r e v i e w 、 G L M -Z e r o - P r e v i e w 等 推 理 模 型 陆 续发布,继续突破推理能力的上限。•O penAI发 布 o1系 列 模 型 、 o 3 系列模型和GPT-4.5,前者推动成本 效 益 推 理 , 后 者 展 现 出 较 高 的情感智能。•国内开源生态爆发。Baichuan、Q w e n 、 I n t e r n L M 、ChatGLM3、Yi-34B等系列模型引领开源热潮。2025.06融合期•顶 级 大 模 型 能 力 边 界 持 续 突 破
中文大模型基准测评2025年5月报告,点击即可下载。报告格式为PDF,大小13.99M,页数39页,欢迎下载。