因子选股系列之一〇八:KD-Ensemble,基于知识蒸馏的alpha因子挖掘模型
有关分析师的申明,见本报告最后部分。其他重要信息披露见分析师申明之后部分,或请与您的投资代表联系。并请阅读本证券研究报告最后一页的免责申明。 金融金融金融工程工程工程 | 专题报题报题报告 研究结论 模型改进思路 ⚫ 考虑到在基础版本中我们使用的 l2 数据集中绝大部分人工因子主要是基于大单构建的,而小单和盘口数据所蕴含的信息量也十分巨大,因此本文将构建一些基于小单和盘口的因子以对 l2 数据集进行信息补充,从而使得 l2 数据集反映的日内信息更加充分从而给全模型带来增量效果。 ⚫ 基于知识蒸馏的思想在因子单元加权阶段将树模型和神经网络进行集成,先通过教师模型对信息进行过滤,之后将过滤得到的有效信息提供给学生模型进行训练,从而让学生模型能更有效的学习。通过知识蒸馏方法,我们希望集成后的模型既能继承树模型能较好处理分类型数据和泛化能力强的优势,又能继承神经网络能够较好拟合极度非线性函数的优势。 ⚫ 今年年初基于量价的机器学习因子出现了较大回撤,原因在于模型预测的市场风格与真实环境出现了较大偏差,因此我们在 alpha 因子生成阶段加入风险因子生成部分,并二者相互正交从而抑制 alpha 因子中这种可能带来较大回撤的轮动成分。 小单和盘口因子的实验结论 ⚫ 小单早盘占比、小单早盘净流入和小单收益率因子在各个股票池上表现均较好,但按分位数划分的表现整体强于按金额划分。小单早盘占比因子在大盘股上的表现整体强于小盘股。 ⚫ 按照中位数划分的小单占比因子在中证全指上 RankIC 均值接近 0,但绝对值均值13.22%,胜率接近 50%,对未来收益有着较好的解释能力,但预测方向波动较大,可认为该因子可视作一个较好的刻画短期风险的风险因子。 合成因子的实验结论 ⚫ 基于知识蒸馏合成打分 2018 年以来在中证全指上周频 RankIC 均值和年化 ICIR 分别可达 16.69%和 8.00,top 组年化超额可达 51.73%;在沪深 300、中证 500、中证1000 三个指数上 RankIC 均值分别为 12.22%、12.39%、15.35%,分十组多头年化超额分别为 34.16%、31.38%、41.81%,相较于基准模型,各宽基指数股票池新模型生成因子的选股能力均有明显提升效果。 ⚫ 基于风险中性模型生成打分在中证全指上周频 RankIC 和年化 ICIR 分别为 15.83%和8.15,多头组合年化超额可达 47.96%,该模型 2024 年表现十分突出多头组合截至7 月 31 日累计超额 29.20%,最大回撤仅-7.48%,稳定性较强。 ⚫ 本文生成因子也可以直接应用于指数增强策略,在各宽基指数上均能获得显著的超额收益,在成分股 80%限制和周单边换手率约束为 20%约束下,2018 年以来,新模型打分构建的 Barra 风控组合在沪深 300、中证 500 和中证 1000 增强策略上年化超额收益率分别为 16.88%、24.02%和 31.38%。 风险提示 ⚫ 量化模型失效 ⚫ 极端市场造成冲击,导致亏损 报告发布日期 2024 年 08 月 19 日 杨怡玲 yangyiling@orientsec.com.cn 执业证书编号:S0860523040002 陶文启 taowenqi@orientsec.com.cn 非线性市值风控全攻略:——因子选股系列之一〇五 2024-05-27 融合基本面信息的 ASTGNN 因子挖掘模型:——因子选股系列之一〇四 2024-05-27 基本面因子的重构:——因子选股系列之一〇二 2024-03-21 自适应时空图网络周频 alpha 模型:——因子选股系列之一〇一 2024-02-28 周频多因子行业轮动模型:——量化策略研究之 七 2024-01-21 基于残差网络的端到端因子挖掘模型:——因子选股系列之九十六 2023-08-24 基于循环神经网络的多频率因子挖掘:——因子选股系列之九十一 2023-06-06 KD-Ensemble:基于知识蒸馏的 alpha 因子挖掘模型 ——因子选股系列之一〇八 金融工程 | 专题报告 —— KD-Ensemble:基于知识蒸馏的 alpha 因子挖掘模型 有关分析师的申明,见本报告最后部分。其他重要信息披露见分析师申明之后部分,或请与您的投资代表联系。并请阅读本证券研究报告最后一页的免责申明。 2 目 录 一、引言 ........................................................................................................ 5 二、Level2 数据集的扩充 ............................................................................... 7 2.1 回测说明 ...................................................................................................................... 7 2.2 小单类因子 ................................................................................................................... 7 2.3 盘口类因子 ................................................................................................................. 12 2.4 与大单类因子相关性分析 ........................................................................................... 13 2.5 RNN 合成因子表现 ..................................................................................................... 14 三、知识蒸馏和模型集成 ............................................................................. 16 四、风险中性的 alpha 因子生成 ................................................................... 18 五、各数据集因子非线性加权结果分析 ........................................................ 19 5.1 中证全指上的表现 .................................
[东方证券]:因子选股系列之一〇八:KD-Ensemble,基于知识蒸馏的alpha因子挖掘模型,点击即可下载。报告格式为PDF,大小4.3M,页数33页,欢迎下载。
