人工智能大模型体验报告3.0

1中国企业发展研究中心新华社国家高端智库分中心人工智能大模型体验报告3.0新华社研究院中国企业发展研究中心2023年11月2报告回顾：大模型产品市场竞争激烈，技术不断进步从1.0版本到3.0版本的测评过程中，参与厂商的分数变化反映了大模型产品竞争的激烈和技术的进步。可以明显观察到一些厂商在持续进步，而一些新的厂商也在逐渐崭露头角。•在1.0版本中（5月测评），ChatGPT系列占据领先位置，其中ChatGPT4表现最佳，紧随其后的是ChatGPT3.5。百度文心一言位于整体第三位置，展现出了较强的实力。这一阶段的科大讯飞星火和阿里通义千问也进入了整体前五，国内前三，表现不俗。•到了2.0版本（8月测评），专注于国内市场，科大讯飞星火实现了跨越式发展，整体表现亮眼。百度文心一言、商汤商量与智谱CHATGLM也取得优异的成绩。同时，360智脑和昆仑万维天工也进入了前五。这些变化展示了厂商之间的激烈竞争和技术进步的速度。•到了3.0版本（11月测评），科大讯飞星火依旧保持领先，商汤商量紧随其后，稳定发挥。值得一提的是，澜舟科技孟子取得了显著进步，字节跳动豆包作为新面孔，在这次评估中崭露头角。纵观这三个版本的发展，可以看出一些规律。首先是竞争日益激烈，厂商之间的得分变动频繁，这体现了大模型产品市场的活跃和竞争激烈程度。其次，技术进步明显，从1.0到3.0版本，各个厂商的产品在性能和功能上都有显著提升。最后，新面孔的涌现也展示了这个行业的活力和吸引力，新的厂商不断加入竞争，推动了大模型产品的发展。厂商A 厂商B厂商C厂商D厂商E厂商F厂商G 厂商H 厂商I 厂商J 厂商K 三次测评概览1.0版本2.0版本3.0版本注：气泡越大代表实际测评得分越高，分数越靠前；空白表示该版本下未测试。厂商A 厂商B厂商C厂商D厂商E厂商F厂商G 厂商H 厂商I 厂商J 厂商K 3目录•3.0版本大模型综合指数•3.0版本测评细分维度指数及评述•测评题目展示大模型产品测评综述大模型厂商整体测评厂商最佳实践案例目录020103•大模型产品现状与进程•3.0版本大模型测评规则•厂商优秀案例展示401.大模型产品测评综述5迭代风潮之下，大模型产品如何迅速适应并引领市场变革1.大模型更新迭代速度日新月异，OpenAI2022年11月发布了GPT3.5，2022年3月就发布了GPT4，参数规模成倍增长， 2023年6月百度发布了文心一言3.5，仅仅4个月之后百度又发布了文心一言4.0，基础模型全面升级，其他厂商的产品也在不断升级迭代，大模型的发展速度可谓“日新月异”。2.虽然大模型的性能不断提升，但是大模型在快速发展的同时也面临着一些问题——•不稳定：在GPT4上线初期，有大量用户反馈大模型的回答质量有所下降，尤其在程序生成方面，GPT4生成的代码时常出现错误。OpenAI开发者推广大使Logan Kilpatrick也坦言，由于大模型本身存在不稳定性，因此对于相通的提示词，大模型存在回答前后不一致的情况。•幻觉：大模型仍然具有一定局限性，不是完全可靠的，会出现“幻觉”事实并犯推理错误。•安全：安全是重中之重。在模型训练、模型线上推理服务、模型安全测试、模型训练过程对齐、模型生成内容等方面的安全合规能力需要持续加强。3.市场需求也在发生变化，ChatGPT上线之初更多的人还是把它当成对话工具，但是不久ChatGPT的功能就得到深度挖掘，如今各个领域的内容创作，以及和行业细分领域深度结合的应用越来越多，市场对于大模型的需求也随着用户所在行业的变化而不断发生变化。6历时半年，大模型测评体系再次升级，助力持续发展之路从历史视角观察，测评1.0与2.0阶段代表着大模型产品的初期评测阶段，主要基于小规模问题集进行评测。这种评测方式在初期对于了解大模型产品的基本性能具有一定的价值。然而，随着时间的推移和技术的进步，课题组发现在经过这两次测评后，众多厂商开始根据测评题目进行定向优化。通过针对测评数据集特定调整，以获取相对较好的排名。此次推出的大模型评测，其核心目标是获取客观、真实的产品结果，并希望通过评测向客户反馈产品真实体验状况，并推动产品的实际进步。针对目前市场上出现的问题，研究团队认为，亟须对评测方式进行优化，确保评测能够全面反馈产品现状。为确保评测能够全面反馈产品现状，课题组实施了以下策略来调整和优化评测体系：多维度全面考察，立体展现模型性能，避免单一指标偏颇。从数据准确性、模型稳定性、到算法效率，全方位、多角度深入评估，实现真实且全面的性能展现。既注重客观数据衡量的精准性，又兼顾用户主观感受的真实性，以用户为中心，让产品的优质体验真正落地，助推质量提升。随着市场环境的变迁和技术进步，及时对评估指标进行更新与调整，确保评估体系始终保持与市场需求的紧密关联。评估维度立体化主观评价融合客观结果指标随市场情况动态变动7基于优化策略，新华社研究院中国企业发展研究中心正式推出全新的大模型评测3.0版本。此次升级在多方面都呈现出显著的提升和改进：1.增加了厂商技术维度和潜力评估。在评测过程中，不仅考虑模型产品的实际表现，还深入评估厂商的技术实力和未来发展潜力。用三维视角更全面的观察厂商，体现出厂商在技术和市场方面的综合实力。2.分数评估更加客观：本次测评使用机器自动化流程进行第一轮打分，再辅以专家团队进行复核，避免了一些主观因素。3.题库数量扩充。在3.0版本中，题库扩充到了1000道，并精选其中的400道进行实际问答测试。大大提升了评测的广度和深度，能更准确地反映模型在不同场景和问题下的实际表现。4.3.0版本在总分计算方式上也做了调整。之前版本的总分经过加权处理，而3.0版本取消了加权，直接展示真实得分。使得评测结果更为直观，也更能真实反映模型的性能。5.专家团再次进行了升级。新的专家团队在经验和专业度上都有了提升，专业判断和建议将为评测提供更坚实的支撑。本次评测规则（1/2）8具体题目打分规则注：本次测评时间为2023年10月25日-2023年11月6日评测大模型产品技术&潜力评估指标本次评测规则（2/2）分数开放型问题封闭式问题5分问题答案较为完美，内容可在实际场景中直接使用答案正确且有相关解读4分基本可用，可在实际场景中使用答案正确3分调整可用，但需人工进行调整后方可使用答案错误，但有推理过程2分大略可用，需要较多人工调整方可使用-1分不可用，答非所问、语言不通-0分无法作答答案错误，没有推理过程一级指标二级指标三级指标技术实力平台性能易用性灵活性反应速度安全性能数据安全稳定性模型可解释性透明性、稳定性实时性能数据实时性发展潜力社会认可度用户接受度创新能力新应用场景市场前景企业商业模型企业战略目标技术团队能力细分维度包括基础能力、智商、情商以及工具提效四个部分902.大模型厂商整体测评10主流大模型综合指数3.0注：纵坐标代表技术能力，分数越高技术实力越强；横坐标代表发展潜力，分数越高代表潜力越大；横纵坐标位置以圆心为准。气泡图大小（图中数字）为测试题目实际得分，但基于评测条件、评测时间等限

立即下载

信息科技

2023-11-30

新华社研究院

39页

1.17M

[新华社研究院]:人工智能大模型体验报告3.0，点击即可下载。报告格式为PDF，大小1.17M，页数39页，欢迎下载。

本报告共39页，只提供前10页预览，清晰完整版报告请下载后查看，喜欢就下载吧！

立即下载

本报告共39页，只提供前10页预览，清晰完整版报告请下载后查看，喜欢就下载吧！

立即下载

水滴研报所有报告均是客户上传分享，仅供网友学习交流，未经上传用户书面授权，请勿作商用。

人工智能大模型体验报告3.0

关于我们

联系我们

人工智能大模型体验报告3.0

关于我们

联系我们

小程序

公众号