中文大模型基准测评2025年5月报告

中文大模型基准测评2025年5月报告 2025.05.28— 2025中文大模型阶段性进展5月评估SuperCLUE团队精准量化通用人工智能（AGI）进展，定义人类迈向AGI的路线图Accurately quantifying the progress of AGI, defining the roadmap for humanity's journey towards AGI.一、2025上半年度关键进展及趋势1. 2025年上半年大模型关键进展 2. 2025年最值得关注的中文大模型全景图3. 2025年国内外大模型差距二、5月通用测评介绍1. SuperCLUE基准介绍 2. SuperCLUE大模型综合测评体系3. SuperCLUE通用测评基准数据集及评价方式 4. 各维度测评说明及示例5. 测评模型列表三、总体测评结果与分析1. SuperCLUE模型象限2. SuperCLUE通用能力测评榜单3. SuperCLUE-Agent：智能体测评分析4. SuperCLUE性价比区间分布5. SuperCLUE大模型综合效能区间分布 6. 国内大模型成熟度-SC成熟度指数7. 评测与人类一致性验证8. 开源模型榜单9. 10B级别小模型榜单10.端侧5B级别小模型榜单报告目录报告摘要（一）•o4-mini(high)总分稳居第一，综合能力全面领先o4-mini(high)在本次5月测评中表现优异，总分达到70.51分，超过国内最好模型7.35分。该模型在推理、代码生成、智能体、指令遵循等多个方面表现出卓越的综合能力，特别是在代码生成（91.52）、指令遵循（68.07）方面得分较高。•国内推理模型崭露头角，部分领域优势突出Doubao-1.5-thinking-pro-205415、SenseNova V6 Reasoner等国内模型表现亮眼。其中，Doubao-1.5-thinking-pro-205415在文本创作与理解任务以81.04的高分领先其他模型。•国内大模型在指令遵循方面普遍低于海外模型Hunyuan-T1-20250403在国内模型中指令遵循得分第一，为36.97分，但是与海外模型指令遵循得分第一的o4-mini(high)相比，差距达到了31.1分，国内模型在指令遵循方面表现较弱，还有较大的提升空间。•小参数模型表现超出预期多款开源小参数量模型展现出惊人潜力。尤其是Qwen3系列，其中4B、8B和14B版本在推理任务上的分数均超过50分，超越了众多闭源大模型。3报告摘要（二）大模型性价比区间分布大模型推理效能区间分布4数据来源： SuperCLUE， 2025年 5月 28日；推理任务得分为推理任务总分：数学推理、科学推理和代码的平均分。开源模型如 Q wen3-32B(T hinking)使用方式为 API，价格信息均来自官方信息。注：部分模型 API的价格是分别基于输入和输出的 tokens 数量确定的。这里我们依照输入 tokens 与输出 tokens 3:1 的比例来估算其整体价格。价格信息取自官方在 5月的标准价格（非优惠价格）。数据来源： SuperCLUE， 2025年 5月 28日；模型推理速度选取 5月测评中具有公开 API的模型。平均推理时间为所有测评数据推理时间的平均值（秒）。推理任务得分为推理任务总分：数学推理、科学推理和代码生成的平均分。第一部分 2025上半年度关键进展及趋势1. 2025年上半年大模型关键进展 2. 2025年最值得关注的中文大模型全景图3. 2025年国内外大模型差距关键进展时间跃进期自2022年11月30日ChatGPT发布以来，AI大模型在全球范围内掀起了有史以来规模最大的人工智能浪潮。国内外AI机构在过去2年半有了实质性的突破。具体可分为：准备期、跃进期、繁荣期、深化期和融合期。2025上半年大模型关键进展2022.122023.062024.062024.122023.12SuperCLUE：AI大模型2025上半年关键进展深化期准备期•ChatGPT发布，全球范围内迅速形成大模型共识。繁荣期•GPT4发布，进一步掀起大模型研发热潮。•国内快速跟进大模型研发。文心一言1.0、通义千问、讯飞星火、3 6 0 智脑、 C h a t G L M 等首批模型相继发布。•G P T - 4 T ur bo 、 G e mini 等海外大模型发布，继续提升模型性能。•国内闭源大模型快速发展。豆包、混元、商量3.0、盘古3.0、A n d e s G P T 、 B l u e L M 、星火3.0等陆续发布。•L l a m a 2 开源，极大助力全球大模型开发者生态。•G P T - 4 o 、 C l a u d e 3 . 5 、Gemini1.5、Llama3发布，海外进入“一超多强”的竞争格局。•国内多模态领域进展迅速，在部分领域领先海外。视频生成模型可灵 A I 、海螺视频、 v i d u 、P i x V e r s e 等模型陆续发布，并在海外取得较大应用进展。•国内通用模型持续提升。Qwen2.5、文心4.0、GLM4、商量5.5等通用模型陆续更新。•O p e n A I 发布 S o r a ，极大拓展了AI在视频领域的想象力。•Googl e发布G e m i ni 2 . 0 系列模型，推出DeepResearch深度研究功能以及众多海外推理模型的发布引发热潮，推理性能大幅度提升。•国内推理模型持续跟进。 K 0 -m at h 、D e e p S e e k - R 1 - L i t e 、Q w Q - 3 2 B - P r e v i e w 、 G L M -Z e r o - P r e v i e w 等推理模型陆续发布，继续突破推理能力的上限。•O penAI发布 o1系列模型、 o 3 系列模型和GPT-4.5，前者推动成本效益推理，后者展现出较高的情感智能。•国内开源生态爆发。Baichuan、Q w e n 、 I n t e r n L M 、ChatGLM3、Yi-34B等系列模型引领开源热潮。2025.06融合期•顶级大模型能力边界持续突破

立即下载

综合

2025-06-25

39页

13.99M

中文大模型基准测评2025年5月报告，点击即可下载。报告格式为PDF，大小13.99M，页数39页，欢迎下载。

本报告共39页，只提供前10页预览，清晰完整版报告请下载后查看，喜欢就下载吧！

立即下载

本报告共39页，只提供前10页预览，清晰完整版报告请下载后查看，喜欢就下载吧！

立即下载

水滴研报所有报告均是客户上传分享，仅供网友学习交流，未经上传用户书面授权，请勿作商用。

中文大模型基准测评2025年5月报告

关于我们

联系我们

中文大模型基准测评2025年5月报告

关于我们

联系我们

小程序

公众号