人工智能大模型体验报告2.0
1中国企业发展研究中⼼新华社国家⾼端智库分中⼼人工智能大模型体验报告2.0新华社研究院中国企业发展研究中心2023年08月2报告综述在2023年6月首次发布的《人工智能大模型体验报告》基础之上,本次测评在题目设计、对标Benchmark(人类)、打分权重、专家测评团队四大维度进行了全面升级。在题目设计方面,测评题目由300道扩展至500道,并进一步完善了题目分类;在对标Benchmark方面,本次测评将接受过高等教育的人类作为对照,来考评大模型真实能力;在打分标准上,本次测评根据对产业、生活的实际价值,对四大测评维度进行了权重设计;在测评团队方面,本次测评特邀北京大学文化与传播研究所及其他业界、学界专家全程参与。通过本次测评发现,与2023年6月相比,当前中国大模型产品进步显著。但与接受过高等教育的人类相比,大模型在智商、情商等方面还存在一定程度差距。具体来看,科大讯飞的星火在工作提效方面优势明显;百度文心一言地基深厚、基础能力仍处领军水准;商汤商量则在情商方面表现优秀;智谱AI 的ChatGLM整体表现优秀。在本次体验测评的基础上,研究团队将继续深耕,加强在大模型安全可解释性、工作提效能力、实际落地情况、产业优秀案例等维度上的探索与研究,欢迎持续关注。3目录•2.0版本大模型综合指数•2.0版本测评细分维度指数及评述大模型市场综述大模型厂商整体测评2.0版本厂商优秀答案展示目 录020103•大模型发展进程•大模型应用发展建议•大模型未来发展趋势•2.0版本大模型测评规则•大模型2.0版本测评题目展示401.大模型成为AI大规模落地拐点5大模型发展进程中国大模型发展现状中国大模型发展热度依旧,天眼查数据显示,截至2023年上半年,与“大模型”直接相关的融资事件超20起,其中包含光年之外、面壁智能等明星级创业企业;从被投企业的地域分布来看,北京、上海以及杭州位居前列,特别是北京,融资事件数量超10起,凸显出北京在人工智能领域的领先地位。越来越多的企业和学术界开始关注如何将大模型与实际应用场景相结合,实现真正的商业化应用。具体来说探索主要围绕研究层面和应用层面:•研究层面,中国大模型在科研方面已形成涵盖理论、方法、软硬件的体系化能力,学术界和产业界共同参与,形成更加完善的理论框架。•应用层面,目前大模型已开始渗透到各行各业,实现商业化应用。超过半数的大模型实现开源。大模型发展进程360智脑-360WAI-微盟WPS AI-金山办公超拟人大模型-聆心智能赤兔-容联运混元-腾讯九天-中国移动源-浪潮盘古-华为日日新-商汤天工-昆仑万维天书-云天励飞通义千问-阿里云文心一言-百度西湖-西湖心辰星河-中国电信星火-科大讯飞序列猴子-出门问问玉颜、丹青-网易伏羲知海图-知乎紫东太初-中科院通用大模型应用垂直大模型应用----教育----子曰-有道----金融----ChatABC-中农行----媒体----Baker-GPT-标贝科技Graph-AIGC-图宇宙----汽车----DriveGPT-毫末智行----医疗----HealthGPT-叮当medGPT-医联左医GPT-左手医生----游戏----DRL-rct AIGAEA-超参数6大模型应用发展建议大模型进程过半,如何让AI真正走进千家万户成关注重点降低成本•优化算法:通过改进和优化算法,可以降低模型的计算复杂度,减少所需的计算资源和时间。•分布式训练:分布式训练是一种技术,可以将训练任务分配到多个计算节点上并行处理,从而加速训练过程。•模型压缩:通过减少模型的参数数量、裁剪模型的结构或使用低精度计算等方法,来减小模型的存储空间和计算复杂度。AI技术发展的重点已经从大模型的盲目追求转向了实用性和可持续性的发展,AI大规模落地需要更多时间来验证。通过降低成本、提高易用性、增强可靠性、保护隐私和安全等方面的措施,可以进一步提高大模型的可用性,让更多的人受益于AI技术的发展,实现更加智能化和便捷化的生活。提高易用性•用户界面设计:设计直观、易用的用户界面,利用自然语言交互等技术,降低使用门槛。•开发工具和平台:提供简单易用的开发工具和平台,例如智能代码生成、自动化模型训练等工具,使非专业人士也能够轻松上手。•服务支持:提供相关的培训和教育资源,帮助用户了解AI技术的原理和应用场景,加强运营和推广,形成数据-技术-用户-数据反馈的正向闭环。安全可解释•提升数据质量:提高数据的质量和多样性,加强对数据的清洗、处理和扩充,以提高训练数据的质量和完整性。•鲁棒性增强:提高模型的鲁棒性,使其更好地应对各种异常情况和边缘情况,减少错误和漏洞。包括数据增强、引入噪声、使用防御性编程等技术。•持续监控和升级:及时发现和修复模型的问题和缺陷。建立监控系统、进行性能测试等技术。数据安全•数据加密:对用户个人数据进行匿名化处理,利用哈希算法、公钥加密等技术加密技术保护数据的传输和存储。•访问控制和身份认证:建立严格的访问控制机制和身份认证体系,确保只有经过授权的用户才能访问和使用数据。使用角色分配、权限控制等技术实现访问控制。•安全审计和监控:建立健全机制,使用安全日志对AI应用的安全性进行定期检查和评估。7大模型未来发展趋势未来已来,大模型概念红利逐渐消失,回归到实际应用持续加强算力基础设施建设跨领域知识、多模态数据融合安全可靠的大模型产品应用正成为深耕方向大模型走向实体经济,商业化路径逐渐明晰大模型更加注重在线学习和增量学习构建完整的数据中心,扩大算力设施规模,提升算力使用效率,实现算力的集中化、高效化供给打造综合性的知识体系,打通多模态数据之间的沟通壁垒。多技术、多数据融合,一体化的解决方案逐渐产生化学效应安全可解释的大模型是AI大规模落地的必要条件之一,通过AI算法模型进行行为分析等提前预警风险,提高模型鲁棒性等需要持续深耕从技术概念到实际落地,已有部分大模型应用出现,以产品或服务的方式进行商业化的路径已经逐渐开始试点探索模型无监督学习,在不断接收新数据的过程中进行自主学习和升级,从而提高模型的学习效率和适应能力以及迁移性8测评规则经过对大模型评测1.0版本的打磨和沉淀,新华社研究院中国企业发展研究中心推出大模型评测2.0版本。主要升级方向包括:1.引入Benchmark-人类答案做对比(组建专家团队,利用开卷考试的方式进行问答),更加直观观测AI模型与人之间的差异;2.题目数量由300道扩充到500道,在题库中随机筛选题目,使结果更加客观;3.根据目前市场情况,增加二级分类权重,并细化二级分类,侧重考察产品的基础能力和智商部分,更符合市场进程;4.专家团队升级,专家团队成员涵盖高校教授、行业专家、企业CEO、自媒体创始人等,在打分过程中打乱问题,采用背靠背的打分形式,进一步增强打分结果权威性。本次测评大模型评测维度:•基础能力(共150题):考察产品的语言能力、跨模态能力以及AI向善的引导能力,新增多轮对话能力。•智商测试(共125题):涵盖常识知识、专业知识、逻辑能力三大项。其中专业知识包括数学、物理、金融、文学等10+项细分,逻辑能力则包括推理能力、归纳能力以及总结等6项维度。逻辑推理能力权重增高,并明确封闭式问题打分规则。•情商测试(共75题):衡
[新华社]:人工智能大模型体验报告2.0,点击即可下载。报告格式为PDF,大小0.88M,页数27页,欢迎下载。
