复旦大学(张奇):2023年大语言模型评测报告

1张奇复旦大学大语言模型评测2评测推动了NLP的进展,但是面临很多问题Dynabench: Rethinking Benchmarking in NLP阅读理解从评测集合公开到算法超越人类的时间越来越短这对NLP研究来说不是好事,而是巨大的问题!3大语言模型都有哪些种类?4"大"语言模型的不同阶段原始数据数千亿单词:图书、百科、网页等语言模型预训练基础模型预训练阶段数据集合算法模型资源需求1000+GPU月级别训练时间GPT 3.0、LLaMa、PaLM标注用户指令数十万用户指令和对应的答案语言模型预训练SFT 模型1-100GPU天级别训练时间MOSS、ChatGLM6b、Vicuna-13B等指令微调标注对比对百万量级标注对比对二分类模型RM 模型1-100GPU天级别训练时间奖励函数用户指令十万量级用户指令强化学习方法RL 模型1-100GPU天级别训练时间ChatGPT、Claude强化学习5基础语言模型不具备指令理解能力SFT模型和RL模型可以完成多种任务、要能够服从人类指令不同种类的大模型评测应该有不同的方法6SFT和RL模型评测现状7现有大模型评测类型评测分类维度题目类型客观题主观题有标准答案无标准答案评测方式人工GPT4评测模型题目难度初高中本科以上题目范围通用领域HELM:Holistic Evaluation of Language Models(斯坦福,2022)提出了语言模型的整体评估,以提高语言模型的透明度“场景、任务、指标”HELM应用场景分类:将潜在的语言模型应用场景进行分类,包括任务和领域方面。任务可以涵盖问答、信息检索、摘要、情感分析、毒性检测、杂项文本分类等核心场景。领域则包括来源、用户和时间等因素。评估指标分类:采用多指标方法对语言模型进行评估。评估指标包括精度(Accuracy)、校准和不确定性(Calibration and uncertainty)、稳健性(Robustness)、公平性(Fairness)、偏见和刻板印象(Bias and stereotypes)、有毒性(Toxicity)以及效率(Efficiency)。这些指标用于评估语言模型在不同应用场景下的性能。部分场景与评价指标crfm.stanford.edu/helm/v0.2.2/?HELM数据集与指标1. 应用场景分类:将潜在的语言模型应用场景进行分类,包括任务和领域方面。任务可以涵盖问答、信息检索、摘要、情感分析、毒性检测、杂项文本分类等核心场景。领域则包括来源、用户和时间等因素。2. 评估指标分类:采用多指标方法对语言模型进行评估。评估指标包括精度(Accuracy)、校准和不确定性(Calibration and uncertainty)、稳健性(Robustness)、公平性(Fairness)、偏见和刻板印象(Bias and stereotypes)、有毒性(Toxicity)以及效率(Efficiency)。这些指标用于评估语言模型在不同应用场景下的性能。3. 大规模评估方法:在42个场景下对30个语言模型进行大规模评估。评估方法是通过修改prompt并加入5个样例,将语言模型拓展到需要评估的任务上。这种评估方法可以有效评估和比较语言模型在不同应用场景下的性能,为进一步改进和优化提供参考。语言模型、问答、摘要三个任务的prompt设计比对HELM评价方式HELM得到了25个结论1. Instruction-tuning: 优势在于模型参数量小的情况下取得突出结果。2. 模型准确性与获取方式的关系: 开源模型相对较差,随着时间推移差距可能变大或变小。3. 校准对模型准确性的影响: 取决于场景和迁移方式,可能成正比或反比。4. 鲁棒性和公平性对准确性的影响: 在一些扰动下的最坏情况准确度,可能需要权衡。5. 性能差距与人口统计层面的关系: 不同人群可能存在性能差距。6. 生成性损伤的固定偏差和毒性: 在核心场景中平均很低,但仍对社会有危害。7. 准确性与效率的关系: 模型大小和准确度成正比,但训练和推理开销增大。8. 问题回答中的生成结果差异: 在不同问题回答场景中观察到明显差异。9. 信息检索任务的模型表现: 比较好但未达到SOTA水平。10. 摘要任务中模型生成超越官方参考摘要: 需改进摘要基准和评估指标。11. 情感分析任务的模型表现: 准确性和校准性表现好,但鲁棒性和公平性下降。12. 毒性检测中模型准确性和鲁棒性差异大: 大多数模型不够准确。13. 杂项文本分类中模型表现差异: 在不同子集/任务上存在显著差距。14. 语义理解中模型准确性和语言建模的差异: 最优模型在某些任务上可能表现最差。15. 模型大小与获取世界知识能力的关系: 模型大小对知识获取能力提升重要。16. 推理能力的提高对代码模型效果的影响: 代码模型比文本模型表现好。17. 长序列的版权/证件材料记忆能力: 逐字记忆和准确性成正比。18. 大模型在生成支持给定论点的逼真标题方面有效: 但生成鼓励特定行动的文本效果有高有低。19. 准确性与偏见之间的关系: 最准确模型存在与社会一致的偏见/歧视。20. 毒性生成与核心场景的关系: 核心场景中毒性生成概率很低。21. 大模型的全面性表现: 超过某些专业化模型。22. 提示对模型表现的影响: 对提示格式和上下文示例敏感。23. 多选择迁移方法对模型表现的影响: 迁移方式影响模型表现。24. 上游复杂度与下游准确度的关系: 上游复杂度不能可靠预测下游准确度。25. 模型规模的趋势与准确性的关系: 模型规模可预测准确性,但效率可能不够高效。HELM评价结果AGI-EVAL: A Human-Centric Benchmark for Evaluating Foundation Models (微软 2023.4)专门用于评估基础模型在「以人为本」(human-centric)在标准化考试,如高考、公务员考试、法学院入学考试、数学竞赛和律师资格等考试中的表现AGI-EVALAGIEval数据集遵循两个设计原则• 强调人脑级别的认知任务:• 与现实世界场景的相关性:AGIEVAL选择了多种标准化的高质量考试,强调人类水平的推理和现实世界的相关性具体包括:• 普通高校入学考试• 法学院入学考试• 律师资格考试• 研究生管理入学考试(GMAT)• 高中数学竞赛• 国内公务员考试AGI-EVAL:数据集•评估了三个模型:GPT-4, ChatGPT和Text-Davinci-003•采用Zero-shot和Few-shot设置进行评估。在Zero-shot设置下,模型直接对问题进行评估;而在Few-shot设置下,模型在对测试样本进行评估之前,会先看到同一任务中的少量例子。•实验中使用了CoT策略: 1、接收到提示「Let’s think step by step」为给定的问题生成解释接着2、模型会接收到另一提示「Explanation is」,根据先前的解释生成最终的答案。•对于多选题,使用了标准分类准确率进行评估;对于填空题,使用了精确匹配(EM)和F1指标进行评估。AGI-EVAL:评测方式•GPT-4在所有任务中都显著优于其同类产品。•ChatGP

立即下载
综合
2024-11-25
69页
8.96M
收藏
分享

复旦大学(张奇):2023年大语言模型评测报告,点击即可下载。报告格式为PDF,大小8.96M,页数69页,欢迎下载。

本报告共69页,只提供前10页预览,清晰完整版报告请下载后查看,喜欢就下载吧!
立即下载
本报告共69页,只提供前10页预览,清晰完整版报告请下载后查看,喜欢就下载吧!
立即下载
水滴研报所有报告均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。
相关图表
全球最小开源端到端人形机器人 Zeroth 01 Bot 图 7: Zeroth 01 Bot 复刻波士顿动力平地起身动作
综合
2024-11-25
来源:机器人行业周报:中国工业机器人密度超越德国日本,升至全球第三
查看原文
KAIST 四足机器人完成全程马拉松比赛 图 4:Raibo 2 采用了高扭矩透明关节机构
综合
2024-11-25
来源:机器人行业周报:中国工业机器人密度超越德国日本,升至全球第三
查看原文
中国工业机器人密度超越德国日本,升至全球第三
综合
2024-11-25
来源:机器人行业周报:中国工业机器人密度超越德国日本,升至全球第三
查看原文
机器人指数行情回顾
综合
2024-11-25
来源:机器人行业周报:中国工业机器人密度超越德国日本,升至全球第三
查看原文
同行业上市公司指标对比
综合
2024-11-25
来源:新股覆盖研究:科隆新材
查看原文
公司 IPO 募投项目概况
综合
2024-11-25
来源:新股覆盖研究:科隆新材
查看原文
回顶部
报告群
公众号
小程序
在线客服
收起