中文大模型基准测评报告2023暨ChatGPT发布一周年特别报告
中文大模型基准测评报告,2023 2023.11.28— ChatGPT发布一周年,中文大模型进展评估目 录01 国内大模型关键进展 测评体系、方法说明•2023年大模型关键进展•2023年值得关注的中文大模型全景图•中文大模型基准SuperCLUE介绍•测评体系、层次、方法说明 大模型测评结果•SuperCLUE模型象限•国内外大模型差距•国内大模型竞争格局•大模型对战胜率分布图•四大维度测评结果及示例 优秀模型案例介绍•优秀模型案例介绍020304第1部分 国内大模型关键进展5(关键进展)时间准备期成长期爆发期自2022年11月30日ChatGPT发布以来,AI大模型在全球范围内掀起了有史以来规模最大的人工智能浪潮。国内学术和产业界在过去一年也有了实质性的突破。 大致可以分为三个阶段,即准备期(ChatGPT发布后国内产学研迅速形成大模型共识)、成长期(国内大模型数量和质量开始逐渐增长)、爆发期(各行各业开 源闭源大模型层出不穷,形成百模大战的竞争态势)。故事的起点:ChatGPT发布国内迅速形成大模型共识•百度发布文心一言1.0 2023大模型关键进展2022.122月6月8月10月2023.114月•OpenAI发布GPT4•复旦开源MOSS•元语开源ChatYuan•清华开源ChatGLM•360发布360智脑1.0•科大讯飞发布星火1.0•阿里云发布通义千问1.0•Meta开源Llama2•百川智能开源Baichuan-7B•OpenAI发布多模态GPT-4V•GPT-4 Turbo发布•百度升级文心一言4.0•商汤科技发布商量1.0•阿里云开源Qwen-7B•华为发布盘古3.0•字节跳动公测大模型产品豆包•百川智能开源Baichuan2•vivo发布BlueLM•清华开源ChatGLM3•清华&智谱AI开源ChatGLM2•小米发布大模型MiLM•西湖心辰发布西湖大模型•零一万物开源Yi-34B•文心一言升级V3.5•科大讯飞升级星火3.0•元象科技开源XVERSE-13B•昆仑万维发布天工1.0•云从科技发布从容大模型•出门问问发布序列猴子•上海人工智能实验室开源InternLM-20B•OPPO发布AndesGPT•商汤科技升级商量2.0•商汤科技升级商量3.0•理想汽车发布MindGPT•深言科技开源 LingoWhale-8B•腾讯发布混元助手•360升级智脑4.0SuperCLUE:AI大模型2023年关键进展•百川智能发布Baichuan2-192K2023年值得关注的中文大模型全景图通用大模型字节云雀大模型AndesGPT玉言闭源开源行业大模型岐黄问道医疗MindGPT银河大模型蚂蚁金融大模型轩辕大模型AInno-15BCOSMO-GPTSMore LrMo妙笔大模型文化/零售/交通百川BaichuanBlueLM云天书孟子部分领域汽车教育金融工业....................................Yi-34B序 列 猴 子第2部分 测评体系、方法说明0102030405不同于传统测评针对于学术能力的测评,SuperCLUE考察通用大模型在语言理解与生成、专业技能与知识、安全性和工具使用的四大能力、十大维度的上百个任务上的效果。多维度多层次的反应大模型通用能力。多维度中 文 语 言 理 解 测 评 基 准 C L U E ( T h e C h i n e s e L a n g u a g e Understanding Evaluation)是致力于科学、客观、中立的语言模型评测基准,发起于2019年。陆续推出CLUE、FewCLUE、KgCLUE、DataCLUE等广为引用的测评基准。SuperCLUE是大模型时代CLUE基准的发展和延续。聚焦于通用大模型的综 合 性 测 评 。 传 统 语 言 模 型 测 评 往 往 局 限 于 学 术 范 围 的 单 轮 选 择 题 ,SuperCLUE根据多年的测评经验,基于通用大模型在学术、产业与用户侧的广泛应用,构建了多层次、多维度的综合性测评基准。主观题+客观题多轮十大维度高保密性传统测评 SuperCLUE不同于传统测评的单轮形式的测评,SuperCLUE通过构建多轮对话场景,更深层次考察大模型在真实多轮对话场景的应用效果。对大模型的上下文、记忆、对话能力全方位评测。多轮测评不同于传统测评通过选择题形式的测评,SuperCLUE纳入了开放主观问题的测评。通过对话的形式真实模拟大模型的应用场景,真实有效的考察模型生成能力。多视角为实时跟踪国内大模型的迭代情况,及时反应国内外大模型发展现状。SuperCLUE按照月度测评形式及实时热点模型测评的模式快速跟进大模型发展情况。月度跟踪为应对大模型广泛学习互联网知识的情况,减少训练集混入评测集的风险,SuperCLUE采用高保密性的测评方式,且月度测评采用完全原创且全新的评测集进行测评,保证真实、客观反应大模型能力。高保密性选择题单轮学术保密性低VSSuperCLUE五大特征SuperCLUE介绍产业+用户视角传统测评与SuperCLUE的区别测评体系SuperCLUE中 文 通 用 大 模 型 综 合 性 评 测 基 准十大基础能力SuperCLUE-OPEN可测多轮、主观、开放式完全自动化测评多轮开放式问题构建不同视角、不同范围的多层次评测基准,形成相对完善的评价大模型能力的测评框架 对大模型研发机构及应用开发者,为优化模型和场景应用提供了相对全面的视角。基础能力(10大任务)SuperCLUE-OPT中文特性(10大任务)学术与专业(50+任务)三大能力客观题任务规划、工具使用SuperCLUE-Agent长短期记忆中文5000题智能体能力评估四大维度(20+任务)SuperCLUE-Safety5000道对抗性安全题目多轮主观题、自动化评测多轮对抗安全评估测评层级专业技能与知识语言理解与生成安全性AI智能体计算逻辑与推理代码知识与百科代数计算应用题......概率统计微积分一级二级三级常识推理条件推理......思维推理决策推理代码生成代码补全......代码注释bug解决历史地理科学技术......文化娱乐社会人文阅读理解信息抽取......摘要生成情感分析情境对话生成对话......对话记忆任务对话 文学写作文本续写......广告文案技术报告名人角色职业角色......虚构角色非人类偏见歧视违法犯罪......财产隐私脏话侮辱目标劫持Prompt泄漏......不安全指令反面诱导任务分解自我反思......思维链调用API检索API......规划API语言理解与抽取上下文对话生成与创作角色扮演传统安全指令攻击任务规划工具使用SuperCLUE多层次基准测评方法持续扩充人工校验评测反馈10万+题库不重复抽样5000原始评测集4265道评测题C L U E 测 评 组•1052道多轮简答题(OPEN)•3213道客观选择题(OPT)OPENOPTVS在一个确定的评估标准指导下,OPEN基准使用超级模型作为评判官,使用一个待评估模型与一个基准模型进
[SuperCLUE]:中文大模型基准测评报告2023暨ChatGPT发布一周年特别报告,点击即可下载。报告格式为PDF,大小2.29M,页数38页,欢迎下载。



