金工专题报告:基于大模型外部评价体系框架介绍-中邮证券

证券研究报告:金融工程报告市场有风险,投资需谨慎请务必阅读正文之后的免责条款部分研究所分析师:肖承志SAC 登记编号:S1340524090001Email:xiaochengzhi@cnpsec.com研究助理:冯昱文SAC 登记编号:S1340124100011Email:fengyuwen@cnpsec.com近期研究报告《beta 风格显著,高波占优——中邮因子周报 20250629》 - 2025.06.30《反转风格显著,小市值回撤——中邮因子周报 20250622》 - 2025.06.23《关注基本面支撑,高波风格占优——中邮因子周报 20250615》 -2025.06.16《结合基本面和量价特征的 GRU 模型》 - 2025.06.05《Claude 4 系列发布,谷歌上线编程智能体 Jules——AI 动态汇总20250526》 - 2025.05.27《谷歌发布智能体白皮书,Manus 全面开放注册——AI 动态汇总 20250519》- 2025.05.20《证监会修改《重组办法》,深化并购重组改革——微盘股指数周报20250518》 - 2025.05.19《通义千问发布 Qwen-3 模型,DeepSeek 发布数理证明大模型——AI动态汇总 20250505》 - 2025.05.06《基金 Q1 加仓有色汽车传媒,减仓电新食饮通信——公募基金 2025Q1 季报点评》 - 2025.04.30《泛消费打开连板与涨幅高度,ETF 资金平铺机器人、人工智能与芯片——行业轮动周报 20250427》 -2025.04.28金工专题报告基于大模型外部评价体系框架介绍l构建评价大模型金融问答能力的基准:为系统性地评估大模型在金融领域的专业问答能力,本报告首先梳理了现有通用及金融领域评价基准的特点与不足。在此基础上,我们构建了一个全新的、专注于逻辑推理的金融问答能力评价基准。该基准围绕金融相关的计算、财务报表分析、权益投资等九大核心类别,构建了包含 188 道高质量单项选择题的题库。每道题目附带了平衡了客观性与代表性的、可验证的推理过程(思维链),旨在深入考察模型的逻辑推理与专业知识应用能力。l评测实验:为检验模型的实际表现,我们设计了全面的评测实验。实验选取了 DeepSeek、混元、Qwen、GLM 等国内主流大模型,并在基准(zero-shot)、思维链(CoT)、少样本提示(few-shot)以及二者结合共四种场景下进行测试。我们采用准确率和Pass@K作为核心量化评价指标,并对模型的错误案例进行了深入的定性分析,以全面评估其在不同提示工程策略下的性能表现。l实验结果与核心结论:实验结果表明,主流国产大模型已具备一定的金融问答基础能力,但表现存在差异,且在处理复杂问题时仍有较大提升空间。其中,思维链提示(CoT)对所有模型的准确率均有显著提升(最高超过15%),证明了提供高质量逻辑线索在引导模型解决复杂金融问题上的关键作用。 相比之下,简单的少样本提示效果有限。错误分析进一步揭示,模型在处理概念相近、存在逻辑陷阱的题目时容易出现理解偏差。l风险提示:本报告基于历史数据分析,历史规律未来可能存在失效的风险;本报告中的案例仅供测试使用,不构成投资建议;大模型回答存在幻觉现象与随机性,生成答案可能存在错误。发布时间:2025-06-30请务必阅读正文之后的免责条款部分2目录1大模型评价基准.............................................................................41.1主流大模型能力评估基准综述.............................................................41.2常见大模型评价基准.....................................................................52大模型金融能力评价基准.....................................................................92.1FinanceBench ......................................................................... 102.2FinBen ............................................................................... 113大模型金融能力评价基准构建................................................................134实验设计..................................................................................174.1实验场景 ............................................................................. 174.2数据集构建 ........................................................................... 174.3模型选择 ............................................................................. 174.4评测指标 ............................................................................. 184.5日志文件生成..........................................................................185实验结论..................................................................................195.1对比实验 ............................................................................. 195.2不同类别题目对比......................................................................205.3Pass@K 评价标准.......................................................................215.4大模型推理内容对比....................................................................225.5结语 .......................

立即下载
金融
2025-07-07
26页
2.17M
收藏
分享

金工专题报告:基于大模型外部评价体系框架介绍-中邮证券,点击即可下载。报告格式为PDF,大小2.17M,页数26页,欢迎下载。

本报告共26页,只提供前10页预览,清晰完整版报告请下载后查看,喜欢就下载吧!
立即下载
本报告共26页,只提供前10页预览,清晰完整版报告请下载后查看,喜欢就下载吧!
立即下载
水滴研报所有报告均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。
相关图表
各省公募非永续存量债估值分布情况(亿元、%)
金融
2025-07-07
来源:固定收益专题:低票息时代下的城投资产选择
查看原文
历史拟提前偿还城投债规模(亿元、只) 图 24:2023 年 10 月以来城投债现金要约收购规模(亿元、只)
金融
2025-07-07
来源:固定收益专题:低票息时代下的城投资产选择
查看原文
各省城投债 2025 年下半年到期节奏(亿元)
金融
2025-07-07
来源:固定收益专题:低票息时代下的城投资产选择
查看原文
2025 年以来涉及项目建设用途的城投债发行明细(亿元、只)
金融
2025-07-07
来源:固定收益专题:低票息时代下的城投资产选择
查看原文
2025 年以来涉及项目建设及补流的城投债发行(亿元、只)
金融
2025-07-07
来源:固定收益专题:低票息时代下的城投资产选择
查看原文
2025 年以来各省新增城投债发行情况(亿元)
金融
2025-07-07
来源:固定收益专题:低票息时代下的城投资产选择
查看原文
回顶部
报告群
公众号
小程序
在线客服
收起