中文大模型基准测评2024年上半年报告——2024年度中文大模型阶段性进展评估-SuperCLUE团队

中文大模型基准测评2024年上半年报告 2024.07.09— 2024年度中文大模型阶段性进展评估SuperCLUE团队精准量化AGI进展，定义人类迈向AGI的路线图Accurately quantifying the progress of AGI, defining the roadmap for humanity's journey towards AGI.报告核心结论摘要•国内外大模型差距进一步缩小：国内外大模型差距进一步缩小：OpenAI最新模型GPT-4o依然是全球表现最好的模型，但国内大模型已将差距缩小至5%以内。•国内开源模型崛起：本次登顶SuperCLUE的国内大模型为开源模型Qwen2-72B-Instruct，并且超过了众多国内外闭源模型。•各任务表现：在文科、理科和Hard任务中，GPT-4o综合最佳，Claude-3.5在Hard任务表现突出，Qwen2-72B在文科任务表现优异。•端侧小模型表现惊艳：端侧小模型进展迅速，部分小尺寸模型表现要好于上一代的稍大尺寸模型，极大提升了落地的可行性。3SuperCLUE模型象限SuperCLUE各维度任务来源：SuperCLUE, 2024年7月9日来源：SuperCLUE, 2024年7月9日目录 1. 国内大模型关键进展及趋势•2023-2024年大模型关键进展•2024年值得关注的中文大模型全景图•2023-2024年度国内外大模型技术发展趋势•中文大模型基准SuperCLUE介绍•SuperCLUE测评体系及数据集•总榜、理科榜单、文科榜单、Hard榜单及模型象限•开源榜单及端侧小模型榜单•大模型对战胜率、成熟度指数•评测与人类一致性分析 2. SuperCLUE通用能力测评 4. SuperCLUE专项与行业基准测评 5. 优秀模型案例介绍•优秀模型案例介绍•各行业、专项测评•未来两个月基准发布计划 3. SuperCLUE多模态能力测评•AIGVBench视频生成测评•SuperCLUE-Image文生图测评•SuperCLUE-V多模态理解测评4第1部分国内大模型关键进展及趋势1.2023-2024大模型关键进展 2.中文大模型全景图 3.国内外大模型发展趋势5（关键进展）时间准备期成长期爆发期自2022年11月30日ChatGPT发布以来，AI大模型在全球范围内掀起了有史以来规模最大的人工智能浪潮。国内学术和产业界在过去一年半也有了实质性的突破。大致可以分为三个阶段，即准备期（ChatGPT发布后国内产学研迅速形成大模型共识）、成长期（国内大模型数量和质量开始逐渐增长）、爆发期（各行各业开源闭源大模型层出不穷，形成百模大战的竞争态势）。故事的起点：ChatGPT发布国内迅速形成大模型共识•百度发布文心一言1.0 2023-2024大模型关键进展2022.122023.022023.122024.042024.062023.06•OpenAI发布GPT-4•清华开源ChatGLM•360发布360智脑•科大讯飞发布星火•阿里云发布通义千问•Meta开源Llama2•百川智能开源Baichuan•OpenAI发布GPT-4 Turbo、多模态GPT-4V•百度升级文心一言4.0•阿里云开源Qwen-7B•华为发布盘古3.0•字节跳动公测大模型产品豆包•vivo发布BlueLM•小米发布大模型MiLM•西湖心辰发布西湖大模型•零一万物开源Yi-34B•科大讯飞升级星火3.0•云从科技发布从容大模型•OPPO发布AndesGPT•商汤科技发布商量2.0•Google发布多模态大模型Gemini•腾讯发布混元助手SuperCLUE：AI大模型2023-2024年关键进展•OpenAI发布文生视频Sora•百川智能发布Baichuan3•MiniMax发布ABAB6.5•智谱AI发布GLM-4•Google发布Gemini1.5•Claude3发布•科大讯飞发布星火3.5•商汤发布SenseChat5.0•KimiChat支持200万上下文•Meta开源Llama3•OpenAI发布GPT-4o•阿里云开源Qwen2-72B•快手发布可灵视频生成•百川智能发布Baichuan4•Runway发布Gen-3•Claude3.5发布•科大讯飞发布星火4.0•零一万物发布Yi-large•DeepSeek-V2发布•国内大模型大幅降价62024年值得关注的中文大模型全景图通用大模型字节豆包大模型AndesGPT玉言闭源(语言模型)开源行业大模型岐黄问道医疗MindGPT蚂蚁金融大模型轩辕大模型AInno-15BCOSMO-GPTSMore LrMo妙笔大模型文化/零售/交通部分领域汽车教育金融工业......M edGPT华佗 G P T左医GPT京医千询..............................NomiGPT妙想大模型闭源(多模态)72023-2024年度国内外大模型发展趋势模型23年5月 23年6月23年7月23年8月23年9月23年10月23年11月23年12月24年2月24年4月24年6月GPT最新模型（GPT3.5、4、4-Turbo、4o）76.6778.7670.8981.0383.2087.0889.7990.6392.7179.1381.00国内TOP153.5863.5362.0060.0262.7570.7474.0279.0287.7573.3277.00国内TOP249.5262.5859.3555.7062.6170.4272.8896.5486.7772.5876.00国内TOP346.4559.8058.0253.4362.1269.5771.8775.0485.7072.4576.00• 2023年5月至今，国内外大模型能力持续发展。其中GPT系列模型为代表的海外最好模型经过了从GPT3.5、GPT4、GPT4-Turbo、GPT4o的多个版本的迭代升级。国内模型也经历了波澜壮阔的14个月的迭代周期，其中Top1的模型经历了8次易主，不断提升国内模型的最强战力。• 总体趋势上，国内外第一梯队大模型在中文领域的通用能力差距在持续缩小，从2023年5月的30.12%的差距，缩小至2024年6月的4.94%。国内外Top1模型差距分数国内外Top1模型差距比例SuperCLUE基准：过去14个月国内外TOP模型对比趋势来源：SuperCLUE, 2023年5月～2024年6月，期间发布的11次大模型基准测评报告。8第2部分 SuperCLUE通用能力测评1.SuperCLUE介绍 2.SuperCLUE综合测评体系及数据集 3.国内外大模型总体表现 4.子任务测评结果 5.SuperCLUE模型象限 6.国内大模型历月前三甲 7.理科测评结果 8.文科测评结果 9.Hard测评结果 10.开源及端侧小模型总体表现 11.大模型对战胜率分布图 12.SuperCLUE成熟度指数 13.评测与人类一致性验证 9010203随着国内外大模型的竞争日益激烈，模型开发方主导的评

立即下载

综合

2024-07-15

59页

5.56M

中文大模型基准测评2024年上半年报告——2024年度中文大模型阶段性进展评估-SuperCLUE团队，点击即可下载。报告格式为PDF，大小5.56M，页数59页，欢迎下载。

本报告共59页，只提供前10页预览，清晰完整版报告请下载后查看，喜欢就下载吧！

立即下载

本报告共59页，只提供前10页预览，清晰完整版报告请下载后查看，喜欢就下载吧！

立即下载

水滴研报所有报告均是客户上传分享，仅供网友学习交流，未经上传用户书面授权，请勿作商用。

中文大模型基准测评2024年上半年报告——2024年度中文大模型阶段性进展评估-SuperCLUE团队

关于我们

联系我们

中文大模型基准测评2024年上半年报告——2024年度中文大模型阶段性进展评估-SuperCLUE团队

关于我们

联系我们

小程序

公众号