2025Q1人工智能现状分析:中国-Artificial Analysis
AI 现状 : 中国人工分析 Q1 2025人工分析 是领先且独立的AI基准测试和洞察提供商。我们支持工程师和公司了解AI能力,并就其AI战略做出关键决策。我们的数据、见解和出版物基于我们对人工智能技术及其应用场景的全面基准测试。这包括从语言模型API的小时级性能测试到我们众包平台上的数百万次投票。我们的公共网站,artificialanalysis.ai,广泛被人工智能创新领域的领先公 司引用。如欲讨论本报告、我们的出版物或服务,请通过contact@artificia lanalysis.ai 联系我们。OpenAI,OpenAI, o1 OpenAI, o1 - preview人类, 克劳德十四行诗(6 月 24 日)GPT-4o阿里巴巴 ,Qwen 2 指导 72B阿里巴巴 ,Qwen 2.5DeepSeek, V2阿里巴巴 , Qwen 聊天3 72BOpenAI , GPT - 3.5 Turbo阿里巴巴 , Qwen 聊3天 7BAArtificial Analysis按起源划分的前沿语言模型中国 AI 实验室逐渐赶上美国 AI 实验室 ; 来自中国实验室的模型随着 DeepSeek 的 R1 模型的发布 , 现在正在接近 o1 级智能推理模型很快变得司空见惯 : 推理模型(在回 答前进行“思考”的模型)最早由OpenAI在2024 年第三季度引入。几个月内,以DeepSeek为代 表的中国竞争对手已基本复制了o1的智能水平。 目前,多家中国AI实验室已经拥有前沿级别的推 理模型。缩小差距 : 2024年最后几个月见证了多家顶尖 中国AI实验室推出众多高性能模型。这导致了中 国AI实验室与美国AI实验室在智能水平上的差距 缩小。目前,一些中国模型已与美国顶级实验室 的模型竞争。美国和中国 : 随着时间的推移 , 前沿语言模型情报 1 主要趋势1.人工分析智能指数:涵盖一系列语言模型智能和推理评估数据集的平均值。目前包括MMLU、GPQA Diamond、MATH-500及HumanEval。 发布日期基于该模型的首次公开发布。2. o3智能指数通过放大测量的o1 的智能指数估算得出。3. 基于公司声明和可比结果估算。在可用的情况下 ,尚未通过人工分析进行独立基准测试4Q22 1Q23 2Q23 3Q23 4Q23 1Q24 2Q24 3Q24 4Q24 1Q25 2Q25模型发布日期在前沿实验室附近打开模型 : 由 DeepSeek 和 阿里巴巴领导的开放权重模型已经接近 o1 级智 能。2R1V3指令 72B9590858075706560555045403530252015o3DeepSeek,索 引1 人工分析智能USA 中国GPT - 4 TurboDeepSeek,OpenAI ,OpenAI , GPT - 4o3 o1o1 - 预览双子座 1.5克劳德 3.5 (Sep‘24)十四行诗(6 月 24 日)GPT - 4 Turbo GPT-4o 70B 美洲驼 3.1克劳德 3OpusPaLM 2 LGPT - 3.5 Turbo克劳德 122美洲驼 652BAArtificial Analysis领先的美国前沿语言模型自 2023 年初推出 OpenAI 的 GPT - 4 以来 , 美国领先的 AI 实验室已经争先恐后 赶上 OpenAIGPT - 4 以外的智能火花 : 2024年最后几个月 见证了除了GPT-4之外的重大智能飞跃,由Ope nAI的o3引领。推理模型、数据质量以及新的强 化学习技术等主题已与预训练计算扩展一起成为 提升模型性能的主要杠杆。竞争实验室赶上 OpenAI 的 GPT - 4 :OpenAI于2022年11月通过推出ChatGPT中的 GPT-3.5开启了语言模型的竞争;美国领先的 实验室已基本赶上OpenAI的前沿模型。24 日)Big Tech 关闭了前沿实验室 : Google和Meta 的模型正迅速逼近前沿模型,其中Gemini 2.0 Flash超过了Claude 3.5 Sonnet和GPT 4o的能 力。1.人工智能分析指数:涵盖了多种语言模型智能和推理评估数据集的平均值。目前包括MMLU、GPQA Diamond、MATH-500及HumanEval。 发布日期基于该模型的第一次公开发布。2. 估计依据公司声明和可比结果(如有),尚未由ArtificialAnalysis独立基准测试。3.o3智力指数通过缩放测量的智力得分o1来估计。4Q22 1Q23 2Q23 3Q23 4Q23 1Q24 2Q24 3Q24 4Q24 1Q25 2Q25模型发布日期随着时间的推移 , 美国领先的 AI 实验室前沿语言模型智能 1Gemini 2.0 闪存克劳德 3.59590858075706560555045403530252015双子座 1.5 Pro(24 年 5 月) Gemini 1.0 UltraOpenAI 人类Google Meta主要趋势索 引1 人工分析智能Llama 3 说明 70BLlama 2 聊天 70B十四行诗(10克劳德 2.12美洲驼 3.3GPT-4405BPro月3Qwen 2 指示 72B DeepSeek Ve-3 QwenQwen 2.5 指令 72B DeepSeekDeepSeek V2Qwen 聊天 72B2DeepSeek V21Qwen 聊天 7B2AArtificial Analysis领先的中国前沿语言模型领先的人工智能实验室DeepSeek和阿里云(Alibaba)持续发布新的模型,在2024 年底,DeepSeek超越了阿里云。随着时间的推移 , 中国领先的 AI 实验室语言模型智能 1 主要趋势2025 年的潜在领导者 : 2025年初,包括阿里云 、深视、明略、腾讯、智谱和通义等中国人工智能 实验室纷纷发布了前沿推理模型。发布的速度和频 率表明,中国人工智能实验室在2025年已不再是 落后者。迅速提高智力 : 尽管中国
2025Q1人工智能现状分析:中国-Artificial Analysis,点击即可下载。报告格式为PDF,大小0.98M,页数14页,欢迎下载。

