Alpha掘金系列之二十一:基于LLM的全天候财务逻辑因子挖掘框架

敬请参阅最后一页特别声明 1 LLM 因子挖掘框架设计与改进 本报告构建了一个 7×24 小时自动化运行的具备相关性控制、融合成熟因子启发、配备自适应反馈机制的即插即用模块化 LLM 因子挖掘框架。在先前研究基础上,框架进行了系统性优化:通过改进的 MMR 筛选机制自适应控制因子间的相关性,不仅关注截面相关性,还引入时序相关性评估,同时将 Barra 风险因子纳入相关性计算体系,从早期挖掘阶段就有效规避系统性风险暴露。借助成熟因子库的 RAG 启发方式,在因子生成过程中兼顾实用性与创造性。通过改进过程中的 idea 提取,在提示设计中引入显式反馈机制,使因子迭代路径更加清晰可控。此外,严格限定因子挖掘仅基于 2010 年至 2019 年共 10 年的历史数据进行分析与筛选,仅在因子入库阶段对 2020 年至 2025 年 4 月的样本外数据进行验证,有效避免信息泄露。同时在 Prompt 设计中新增量纲一致性约束机制,确保输出结果不仅数学形式正确,更具备合理的金融逻辑与可解释性。 日频量价与基本面因子具体设计 在新的 7×24 小时 LLM 因子挖掘框架设计中,引入了双层循环机制以优化因子挖掘流程。内层循环专注于对少量候选因子进行并行化挖掘与初步筛选,从中提取在训练期内表现相对优异的因子。外层循环则在此基础上,进一步对这些初选因子进行收益能力评估与相关性控制,确保其与已有因子库在风险暴露和收益来源上保持互补。考虑到基本面数据在频率、结构和经济含义上的特殊性,专门设计了一套适配该领域特性的运算符库,并对 Prompt 模板进行了针对性扩充与重构。基本面因子算子体系主要包含四个核心类别:一元算子、二元算子、截面滚动算子和价值因子算子。为确保因子表达式的正确性和可执行性,特别设计了专用的表达式修正器。修正器通过语法树解析与类型推断机制,能够自动识别并校正因子表达式中函数误用及数据结构不匹配等问题。其核心处理逻辑包括对一元、二元、截面滚动与价值因子四类运算符进行分类调度与参数校验,根据输入因子的类别自动注入相应截止日期字段以对齐时序,并通过模糊匹配技术提升因子名与运算符的容错识别能力,从而大幅提升因子生成的成功率和质量。 LLM 挖掘因子效果实践 从统计数据来看,LLM 挖掘的因子表现优异。三个量价因子的 IC 均值分别达到-0.09、0.06 和-0.11,风险调整后的IC 分别为-1.04、0.73 和-0.77,多头年化超额收益率分别为 22.60%、23.91%和 33.60%。多空净值曲线走势平稳上升,分组表现呈现明显的分层趋势,验证了因子的有效性。在基本面因子方面,同样筛选出表现优异的因子因子的多头年化超额收益率分别达到 18.82%和 4.36%,多空净值曲线表现良好。在改进机制验证方面,通过具体案例充分说明了 RAG启发改进和反思改进机制的有效性。在 RAG 改进案例中,借鉴了成熟因子的构型,通过引入指标对比结构改进了原有因子,没有像遗传规划那样粗暴替换从而破坏原有因子的可解释性,而是融合了启发思想,体现了 LLM 的先进性。在反思改进案例中,原因子借助匹配的 idea 进行提升,改进后的因子 IC 均值从-0.63%提升到 4.17%,多头年化超额收益率从 4.24%提升到 10.09%,效果显著。最终,对 LLM 挖掘的量价因子和基本面因子分别进行合成,量价因子合成后IC 均值达到 0.13,多头年化超额收益率 17.40%;基本面因子合成后 IC 均值 0.02,多头年化超额收益率 8.96%。 风险提示 1、 以上结果通过历史数据统计、建模和测算完成,在政策、市场环境发生变化时模型存在时效的风险。 2、 策略通过一定的假设通过历史数据回测得到,当交易成本提高或其他条件改变时,可能导致策略收益下降甚至出现亏损。 下载日志已记录,仅供内部参考,股票报告网金融工程专题报告 敬请参阅最后一页特别声明 2 扫码获取更多服务 内容目录 一、LLM 因子挖掘框架设计与改进 ................................................................. 4 1.1LLM 因子挖掘背景与框架设计 .............................................................. 4 1.2LLM 因子挖掘框架的改进 .................................................................. 5 二、日频量价与基本面因子具体设计 ............................................................... 6 三、LLM 挖掘因子效果实践 ...................................................................... 11 总结 .......................................................................................... 16 风险提示 ...................................................................................... 16 图表目录 图表 1: LLM 因子挖掘的必要性 ................................................................... 4 图表 2: 即插即用 LLM 因子挖掘初级框架图 ........................................................ 5 图表 3: 7x24h LLM 因子挖掘新框架 ............................................................... 6 图表 4: 基本面因子初始化 Prompt ................................................................ 7 图表 5: 量价因子改进 Prompt .................................................................... 7 图表 6: 量价因子 Idea 提取 Prompt ............................................................... 8 图表 7: 基本面因子初始化 Prompt ................................................................ 8 图表 8: 截面标准化算子示例 ................................................................

立即下载
综合
2026-01-05
国金证券
17页
2.78M
收藏
分享

[国金证券]:Alpha掘金系列之二十一:基于LLM的全天候财务逻辑因子挖掘框架,点击即可下载。报告格式为PDF,大小2.78M,页数17页,欢迎下载。

本报告共17页,只提供前10页预览,清晰完整版报告请下载后查看,喜欢就下载吧!
立即下载
本报告共17页,只提供前10页预览,清晰完整版报告请下载后查看,喜欢就下载吧!
立即下载
水滴研报所有报告均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。
相关图表
图 13: 公路铁路前十大股东构成及 ETF 持股比例情况
综合
2026-01-05
来源:铁路公路行业:高铁运营里程突破5万公里,四川成渝收购荆宜高速
查看原文
图 11: 全国整车货运流量约为 2019 年日均值的 4.81% 图 12: 江西整车货运流量约为 2019 年日均值的 31.93%
综合
2026-01-05
来源:铁路公路行业:高铁运营里程突破5万公里,四川成渝收购荆宜高速
查看原文
图 9: 2020 年以来中国高速公路车流量 图 10: 2023 年以来中国高速公路车流量
综合
2026-01-05
来源:铁路公路行业:高铁运营里程突破5万公里,四川成渝收购荆宜高速
查看原文
图 8: 铁路行业主要公司经营数据(货运量单位:万吨,旅客发送量单位:万人)
综合
2026-01-05
来源:铁路公路行业:高铁运营里程突破5万公里,四川成渝收购荆宜高速
查看原文
图 7: 铁路客运周转量与货运周转量同比增速(%)
综合
2026-01-05
来源:铁路公路行业:高铁运营里程突破5万公里,四川成渝收购荆宜高速
查看原文
图 6: 铁路客运量与货运量同比增速(%)
综合
2026-01-05
来源:铁路公路行业:高铁运营里程突破5万公里,四川成渝收购荆宜高速
查看原文
回顶部
报告群
公众号
小程序
在线客服
收起