中文大模型基准测评2024年10月报告-2024年度中文大模型阶段性进展评估

中文大模型基准测评2024年10月报告 2024.11.08— 2024年度中文大模型阶段性进展评估SuperCLUE团队报告核心结论摘要•OpenAI发布o1后,全球大模型竞争加剧o1-preview的推出进一步拉大了与其他模型的差距。经测评,目前国内大模型正在持续接近Claude 3.5 Sonnet和ChatGPT-4o-latest的能力,但与o1-preview在中文难任务(Hard任务)上相差约为14%,在中文通用能力上相差约8%。•国内大模型第一梯队竞争激烈,持续迭代表现不俗国内开源模型Qwen2.5-72B-Instruct、DeepSeek V2.5领跑全球开源模型,最新发布的TeleChat2-35B同样表现出色,超过了国内外众多开源模型;国内闭源模型GLM-4-Plus、SenseChat 5.5、AndesGPT-2.0表现优异,与ChatGPT-4o-latest相距2分以内。•国内外大模型在不同任务上表现各有优势国内外模型在不同维度任务表现各有特色。o1-preview在Hard任务中表现卓越,有较大领先性,国内大模型则更擅长理科和文科任务。•端侧小模型表现惊艳国内端侧小模型进展迅速,部分小尺寸模型表现要好于上一代的稍大尺寸模型,如Qwen2.5-1.5B-Instruct、MiniCPM3-4B,均展现出很高的性价比和落地可行性。2来源:SuperCLUE模型象限, 2024年11月8日 3. SuperCLUE-AI产品能力测评目 录•中文大模型基准SuperCLUE介绍•SuperCLUE测评体系及数据集•总榜、理科榜单、文科榜单、Hard榜单及模型象限•开源榜单及端侧小模型榜单•大模型对战胜率、成熟度指数•评测与人类一致性分析•优秀模型案例介绍 1. 国内大模型关键进展及趋势•2023-2024年大模型关键进展•2024年值得关注的中文大模型全景图•2023-2024年度国内外大模型技术发展趋势 2. SuperCLUE通用能力测评 5. SuperCLUE专项与行业基准测评 6. 优秀模型案例介绍•各行业、专项测评•未来两个月基准发布计划 4. SuperCLUE多模态能力测评•SuperCLUE-V多模态理解测评•AIGVBench视频生成测评•SuperCLUE-Image文生图测评•SuperCLUE-Coder代码助手产品测评•SuperCLUE-AISearch搜索产品测评•SuperCLUE-Voice实时语音产品测评精准量化通用人工智能(AGI)进展,定义人类迈向AGI的路线图Accurately quantifying the progress of AGI, defining the roadmap for humanity's journey towards AGI.第1部分 国内大模型关键进展及趋势1.2023-2024年大模型关键进进展 2.2024年值得关注的中文大模型全景图3.2023-2024年度国内外大模型技术发展趋势5(关键进展)时间成长期自2022年11月30日ChatGPT发布以来,AI大模型在全球范围内掀起了有史以来规模最大的人工智能浪潮。国内学术和产业界在过去一年半也有了实质性的突破。 大致可以分为四个阶段,即准备期(ChatGPT发布后国内产学研迅速形成大模型共识)、成长期(国内大模型数量和质量开始逐渐增长)、爆发期(各行各业开 源闭源大模型层出不穷,形成百模大战的竞争态势)、繁荣期(更多模态能力的延伸和应用)。2023-2024大模型关键进展2022.122023.022023.122024.102023.06SuperCLUE:AI大模型2023-2024年关键进展6爆发期繁荣期准备期ChatGPT发布国内迅速形成大模型共识•OpenAI发布GPT4、Meta开源Llama•闭源模型:文心一言1.0、 360智脑、讯飞星火、通义千问、商量2.0、盘古3.0、从容大模型等相继发布。•开源模型:ChatGLM、Baichuan等模型相继开源•OpenAI发布GPT4 Turbo、GPT-4V•Google发布多模态大模型Gemini•闭源模型:腾讯混元、字节豆包、文心 一 言 4.0、 讯 飞 星 火 3 . 0 、 小 米MiLM、BlueLM、AndesGPT等模型相继发布。•开源模型:零一万物Yi、阿里Qwen、Baichuan2等模型相继开源。•OpenAI发布Sora、GPT-4o、o1;Gemini-1.5、Claude3.5、Grok2、Llama3等发布。•Gen-3、Luma、SD3、Flux等文生视频/图模型相继发布。•语言模型:GLM4、Baichuan4、Yi-Large、MiniMax-Abab6.5、Qwen2.5、商量5.5、DeepSeekV2、Kimi发布更新。•多模态模型:字节即梦、快手可灵、智谱清影、Vidu、hunyuan-vision、InternVL2、Step-1V、PixVerse V2、智谱实时多模态交互等多模态模型发布。•AI应用:代码助手、AI搜索等AI产品广泛落地。2024年值得关注的中文大模型全景图通用文生图字节豆包AndesGPT闭源开源多模态文生视频多模态理解行业医疗MindGPT蚂蚁金融大模型轩辕大模型奇智孔明AInno-15BCOSMO-GPTSMore LrMo更多行业部分领域汽车教育金融工业....................................NomiGPT妙想金融大模型7GLM-4v百川AI全科医生医联MedGPT左 医 GPT百度灵医极氪Kr大模型易车大模型华为盘古工业大模型羚羊工业大模型营销:文化:妙笔大模型交通:法律:深势分子大模型AI4S:实时交互智谱清言APP星 火 极 速山 海 多 模 态通义APPSenseChat-Vision2023-2024年度国内外大模型发展趋势模型23年5月 23年6月23年7月23年8月23年9月23年10月23年11月23年12月24年2月24年4月24年6月24年8月24年10月GPT最新模型(GPT3.5、4、4-Turbo、4o、o1)76.6778.7670.8981.0383.2087.0889.7990.6392.7179.1381.0079.6775.85国内TOP153.5863.5362.0060.0262.7570.7474.0279.0287.7573.3277.0078.6469.64国内TOP249.5262.5859.3555.7062.6170.4272.8876.5486.7772.5876.0076.2469.00国内TOP346.4559.8058.0253.4362.1269.5771.8775.0485.7072.4576.0074.6368.91• 2023年5月至今,国内外大模型能力持续发展。其中GPT系列模型为代表的海外最好模型经过了从GPT3.5、GPT4、GPT4-Turbo、GPT4o、o1的多个版本的迭代升级。国内模型也经历了波澜壮阔的18个月的迭代周期,其中Top1的模型经历了10次易主,不断提升国内模型

立即下载
综合
2024-11-18
80页
27.94M
收藏
分享

中文大模型基准测评2024年10月报告-2024年度中文大模型阶段性进展评估,点击即可下载。报告格式为PDF,大小27.94M,页数80页,欢迎下载。

本报告共80页,只提供前10页预览,清晰完整版报告请下载后查看,喜欢就下载吧!
立即下载
本报告共80页,只提供前10页预览,清晰完整版报告请下载后查看,喜欢就下载吧!
立即下载
回顶部
报告群
公众号
小程序
在线客服
收起