中文大模型基准测评2024年上半年报告——2024年度中文大模型阶段性进展评估-SuperCLUE团队

中文大模型基准测评2024年上半年报告 2024.07.09— 2024年度中文大模型阶段性进展评估SuperCLUE团队精准量化AGI进展,定义人类迈向AGI的路线图Accurately quantifying the progress of AGI, defining the roadmap for humanity's journey towards AGI.报告核心结论摘要•国内外大模型差距进一步缩小:国内外大模型差距进一步缩小:OpenAI最新模型GPT-4o依然是全球表现最好的模型,但国内大模型已将差距缩小至5%以内。•国内开源模型崛起:本次登顶SuperCLUE的国内大模型为开源模型Qwen2-72B-Instruct,并且超过了众多国内外闭源模型。•各任务表现:在文科、理科和Hard任务中,GPT-4o综合最佳,Claude-3.5在Hard任务表现突出,Qwen2-72B在文科任务表现优异。•端侧小模型表现惊艳:端侧小模型进展迅速,部分小尺寸模型表现要好于上一代的稍大尺寸模型,极大提升了落地的可行性。3SuperCLUE模型象限SuperCLUE各维度任务来源:SuperCLUE, 2024年7月9日来源:SuperCLUE, 2024年7月9日目 录 1. 国内大模型关键进展及趋势•2023-2024年大模型关键进展•2024年值得关注的中文大模型全景图•2023-2024年度国内外大模型技术发展趋势•中文大模型基准SuperCLUE介绍•SuperCLUE测评体系及数据集•总榜、理科榜单、文科榜单、Hard榜单及模型象限•开源榜单及端侧小模型榜单•大模型对战胜率、成熟度指数•评测与人类一致性分析 2. SuperCLUE通用能力测评 4. SuperCLUE专项与行业基准测评 5. 优秀模型案例介绍•优秀模型案例介绍•各行业、专项测评•未来两个月基准发布计划 3. SuperCLUE多模态能力测评•AIGVBench视频生成测评•SuperCLUE-Image文生图测评•SuperCLUE-V多模态理解测评4第1部分 国内大模型关键进展及趋势1.2023-2024大模型关键进展 2.中文大模型全景图 3.国内外大模型发展趋势5(关键进展)时间准备期成长期爆发期自2022年11月30日ChatGPT发布以来,AI大模型在全球范围内掀起了有史以来规模最大的人工智能浪潮。国内学术和产业界在过去一年半也有了实质性的突破。 大致可以分为三个阶段,即准备期(ChatGPT发布后国内产学研迅速形成大模型共识)、成长期(国内大模型数量和质量开始逐渐增长)、爆发期(各行各业开 源闭源大模型层出不穷,形成百模大战的竞争态势)。故事的起点:ChatGPT发布国内迅速形成大模型共识•百度发布文心一言1.0 2023-2024大模型关键进展2022.122023.022023.122024.042024.062023.06•OpenAI发布GPT-4•清华开源ChatGLM•360发布360智脑•科大讯飞发布星火•阿里云发布通义千问•Meta开源Llama2•百川智能开源Baichuan•OpenAI发布GPT-4 Turbo、多模态GPT-4V•百度升级文心一言4.0•阿里云开源Qwen-7B•华为发布盘古3.0•字节跳动公测大模型产品豆包•vivo发布BlueLM•小米发布大模型MiLM•西湖心辰发布西湖大模型•零一万物开源Yi-34B•科大讯飞升级星火3.0•云从科技发布从容大模型•OPPO发布AndesGPT•商汤科技发布商量2.0•Google发布 多模态大模型Gemini•腾讯发布混元助手SuperCLUE:AI大模型2023-2024年关键进展•OpenAI发布文生视频Sora•百川智能发布Baichuan3•MiniMax发布ABAB6.5•智谱AI发布GLM-4•Google发布Gemini1.5•Claude3发布•科大讯飞发布星火3.5•商汤发布SenseChat5.0•KimiChat支持200万上下文•Meta开源Llama3•OpenAI发布GPT-4o•阿里云开源Qwen2-72B•快手发布可灵视频生成•百川智能发布Baichuan4•Runway发布Gen-3•Claude3.5发布•科大讯飞发布星火4.0•零一万物发布Yi-large•DeepSeek-V2发布•国内大模型大幅降价62024年值得关注的中文大模型全景图通用大模型字节豆包大模型AndesGPT玉言闭源(语言模型)开源行业大模型岐 黄 问 道医疗MindGPT蚂蚁金融大模型轩 辕 大 模 型AInno-15BCOSMO-GPTSMore LrMo妙笔大模型文化/零售/交通部分领域汽车教育金融工业......M edGPT华 佗 G P T左医GPT京医千询..............................NomiGPT妙 想 大 模 型闭源(多模态)72023-2024年度国内外大模型发展趋势模型23年5月 23年6月23年7月23年8月23年9月23年10月23年11月23年12月24年2月24年4月24年6月GPT最新模型(GPT3.5、4、4-Turbo、4o)76.6778.7670.8981.0383.2087.0889.7990.6392.7179.1381.00国内TOP153.5863.5362.0060.0262.7570.7474.0279.0287.7573.3277.00国内TOP249.5262.5859.3555.7062.6170.4272.8896.5486.7772.5876.00国内TOP346.4559.8058.0253.4362.1269.5771.8775.0485.7072.4576.00• 2023年5月至今,国内外大模型能力持续发展。其中GPT系列模型为代表的海外最好模型经过了从GPT3.5、GPT4、GPT4-Turbo、GPT4o的多个版本的迭代升级。国内模型也经历了波澜壮阔的14个月的迭代周期,其中Top1的模型经历了8次易主,不断提升国内模型的最强战力。• 总体趋势上,国内外第一梯队大模型在中文领域的通用能力差距在持续缩小,从2023年5月的30.12%的差距,缩小至2024年6月的4.94%。国内外Top1模型差距分数国内外Top1模型差距比例SuperCLUE基准:过去14个月国内外TOP模型对比趋势来源:SuperCLUE, 2023年5月~2024年6月,期间发布的11次大模型基准测评报告。8第2部分 SuperCLUE通用能力测评1.SuperCLUE介绍 2.SuperCLUE综合测评体系及数据集 3.国内外大模型总体表现 4.子任务测评结果 5.SuperCLUE模型象限 6.国内大模型历月前三甲 7.理科测评结果 8.文科测评结果 9.Hard测评结果 10.开源及端侧小模型总体表现 11.大模型对战胜率分布图 12.SuperCLUE成熟度指数 13.评测与人类一致性验证 9010203随着国内外大模型的竞争日益激烈,模型开发方主导的评

立即下载
综合
2024-07-15
59页
5.56M
收藏
分享

中文大模型基准测评2024年上半年报告——2024年度中文大模型阶段性进展评估-SuperCLUE团队,点击即可下载。报告格式为PDF,大小5.56M,页数59页,欢迎下载。

本报告共59页,只提供前10页预览,清晰完整版报告请下载后查看,喜欢就下载吧!
立即下载
本报告共59页,只提供前10页预览,清晰完整版报告请下载后查看,喜欢就下载吧!
立即下载
水滴研报所有报告均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。
相关图表
中国棉花平均每亩总产值变化趋势
综合
2024-07-15
来源:农小蜂-2024年中国棉花生产及成本收益分析简报
查看原文
2023 年棉花相关商品出口量及出口金额对比
综合
2024-07-15
来源:农小蜂-2024年中国棉花生产及成本收益分析简报
查看原文
中国棉花相关商品总出口量及总出口金额变化趋势
综合
2024-07-15
来源:农小蜂-2024年中国棉花生产及成本收益分析简报
查看原文
2023 年棉花相关商品进口量及进口金额对比
综合
2024-07-15
来源:农小蜂-2024年中国棉花生产及成本收益分析简报
查看原文
中国棉花相关商品总进口量及总进口金额变化趋势
综合
2024-07-15
来源:农小蜂-2024年中国棉花生产及成本收益分析简报
查看原文
2023 年中国棉花“种植面积”与“产量”在各省分布
综合
2024-07-15
来源:农小蜂-2024年中国棉花生产及成本收益分析简报
查看原文
回顶部
报告群
公众号
小程序
在线客服
收起