中文大模型基准测评2025年年度报告
中文大模型基准测评2025年年度报告 2026.02.04—— 2026开年特别版:含1月底重磅模型动态评测SuperCLUE团队精准量化通用人工智能(AGI)进展,定义人类迈向AGI的路线图Accurately Quantifying the Progress of AGI, Defining the Roadmap for Humanity's Journey towards AGI.一、2025年关键进展1. 2025年最值得关注的中文大模型全景图2. 2025年最值得关注的智能体产品全景图3. 2025年年度大模型关键进展4. 2025年全年SuperCLUE通用基准测评海内外大模型Top3报 告 目 录四、SuperCLUE专项测评基准介绍1. Agent系列基准介绍2. Coding系列基准介绍3. 多模态系列基准介绍4. 文本系列基准介绍5. 推理系列基准介绍6. 性能系列基准介绍三、SuperCLUE中文竞技场介绍1. SuperCLUE大模型中文竞技场介绍 2. 板块一:编程竞技场3. 板块二:图像竞技场4. 板块三:视频竞技场 5. 板块四:音频竞技场二、2025年年度测评结果与分析1. 2025年年度中文大模型基准测评介绍2. 2025年全球大模型中文智能指数排行榜3. 2025年SuperCLUE模型象限4. 2025年SuperCLUE模型能力格局5. SuperCLUE2025年年度测评六大任务国内Top36. SuperCLUE2025年年度测评六大任务国内外Top20热力图7. 2025年年度中文大模型基准测评——总榜 8. 2025年年度中文大模型基准测评——开源模型9. 海内外大模型对比分析10.开闭源大模型对比分析11.大模型性价比区间分布12.大模型推理效能区间分布13.代表性模型分析:Kimi-K2.5-Thinking&Qwen3-Max-Thinking14.评测与人类一致性验证:对比LMArena第一部分 2025年关键进展1. 2025年最值得关注的中文大模型全景图2. 2025年最值得关注的智能体产品全景图3. 2025年年度大模型关键进展4. 2025年全年SuperCLUE通用基准测评海内外大模型Top3文本通用开源通用闭源多模态语音合成百度TTS讯飞语音合成Qwen3-TTS推理 SuperCLUE:2025年最值得关注的中文大模型全景图ERNIE-5.0 GLM-4.7Tencent HY 2.0 ThinkSpeech-2.6-HDKimi-K2.5-ThinkingERNIE-4.5系列视觉理解SenseChat-VisionQwen3-VLGLM-4.6V文生图ERNIE-5.0 图片编辑文生视频图生视频实时交互字节豆包Doubao Seed TTS 2.0行业百度灵医极氪Kr大模型易车大模型华为盘古工业大模型羚羊工业大模型法律得理法搜教育金融蚂蚁金融大模型轩辕大模型妙想金融大模型奇智孔明AInno-15B工业医疗汽车豆包爱学ERNIE-5.0 MindGPT智谱AI盘 古 大 模 型字节豆包Doubao-Seed-1.8Qwen3-MaxDeepSeek-V3.24Qwen3-Max-ThinkingK2.5通用领域垂直领域深度研究设计Deep Research深入研究SuperCLUE:2025年最值得关注的国内智能体产品全景图深入研究搜索金融法律编程营销旅行教育实在Agent办公5桌面桌面伙伴桌面版关键进展日期多模态爆发与推理突破2025年年度大模型关键进展2022.122024.122023.12智能体崛起与生态重构百模大战与多模态萌芽2025.126自2022年11月30日ChatGPT发布以来,AI大模型在全球范围内掀起了有史以来规模最大的人工智能浪潮。国内外AI机构在过去3年里有了实质性的突破。具体可分为三个时期:百模大战与多模态萌芽、多模态爆发与推理突破、智能体崛起与生态重构。· OpenAI发布ChatGPT及GPT-4,迅速点燃全球对大模型的关注并成为现象级应用;· Meta开源Llama2,激活开发者生态,降低技术门槛,推动全球长尾创新;· GPT-4V支持图像理解,Google发布多模态大模型Gemini,国内开始探索文生图、文生视频能力;· 中国首批大模型集中亮相。百度、阿里、讯飞、360等快速响应,标志着中国进入核心竞争梯队;· 中国开源模型爆发。百川Baichuan-7B、智谱ChatGLM2、通义千问Qwen等形成“模型矩阵”,加速技术民主化。· OpenAI发布Sora,实现高质量时序连贯视频生成,引发全球视频AIGC创业潮;· GPT-4o发布,首次实现文本+图像+语音的实时交互,模型开始真正“感知”世界;· OpenAI o1系列引入“CoT”机制,AI大模型的发展重心进一步深化,开始攻克更复杂的推理和逻辑思考难题;· 国内多模态领域快速跟进与创新,并在部分领域领先海外。可灵AI、Vidu、Pixverse、海螺视频等视频生成模型陆续发布,并在海外取得较大的应用进展;· 国内推理模型集中涌现。k0-math、DeepSeek-R1-Lite、QwQ-32B-Preview、GLM-Zero-Preview等在推理场景取得突破。一、低成本颠覆与开源生态崛起· 2025年1月20日深度求索发布DeepSeek-R1开源推理大模型,首次跻身全球前五,超高性价比引爆全球;· 中国开源模型(Qwen3、DeepSeek、GLM、MiniMax、Kimi等)在全球开源社区占据半壁江山,中国大模型主导开源生态。二、架构创新与智能体落地· 混合专家(MoE)架构成为2025年大模型的主流架构选择;· 多模态融合技术取得突破,模型通过处理文本、图像、视频、语音等多种形式的数据,实现更自然全面的交互;· Manus爆火出圈,国内大量AI Agent产品涌现:AutoGLM、扣子空间、天工Agent、MiniMax Agent、Kimi OK Computer等;· AI Agent从概念走向实用,特别是在编程领域。Claude Code、Codex等工具的出现标志着AI Agent在实际应用中的重大突破。2025年全年SuperCLUE通用基准测评海内外大模型Top3测评时间国内第一国内第二国内第三海外Top32026年1月Kimi-K2.5-Thinking、Qwen3-Max-ThinkingDoubao-Seed-1.8-251228(Thinking)、DeepSeek-V3.2-ThinkingGLM-4.7、ERNIE-5.0Claude-Opus-4.5-Reasoning、Gemini-3-Pro-Preview、GPT-5.2(high)2025年11月DeepSeek-V3.2-SpecialDeepSeek-V3.2-ThinkingERNIE-5.0-PreviewGPT-5.2(high)、GPT-5.1(high)、Claude-Opus-4.5-Reasoning2025年9月Kimi-K2-Thinking、DeepSeek-V3.2-E
[SuperCLUE]:中文大模型基准测评2025年年度报告,点击即可下载。报告格式为PDF,大小27.86M,页数74页,欢迎下载。



