《因子选股系列研究之七十》:机器因子库相对人工因子库的增量

东方证券股份有限公司经相关主管机关核准具备证券投资咨询业务资格,据此开展发布证券研究报告业务。 东方证券股份有限公司及其关联机构在法律许可的范围内正在或将要与本研究报告所分析的企业发展业务关系。因此,投资者应当考虑到本公司可能存在对报告的客观性产生影响的利益冲突,不应视本证券研究报告为作出投资决策的唯一因素。 有关分析师的申明,见本报告最后部分。其他重要信息披露见分析师申明之后部分,或请与您的投资代表联系。并请阅读本证券研究报告最后一页的免责申明。 专题报告 【金融工程·证券研究报告】 金融工程 机器因子库相对人工因子库的增量 ——《因子选股系列研究 之 七十》 研究结论  国内量化发展已有十余年,各家机构投资者的 Alpha 因子库已有较大规模,这时面临的问题是,继续花时间和精力进行因子挖掘扩充因子库是否划算,还能带来多少增量收益。我们尝试将近年来兴起的机器学习算法应用到Alpha 模型上,进行低频层面的因子挖掘,考察机器因子库相对人工因子库的增量。  本文首先利用遗传规划算法进行因子挖掘,再将机器因子库与人工因子库通过随机森林模型转换为预测收益率,从组合层面进行因子库效果的整体比较。考虑到技术类因子和财务类因子历史表现差别较大,我们将这两类因子的挖掘和对比分开进行。  遗传规划是一种启发式的进化策略算法,可以用来进行选股因子挖掘。遗传规划算法的主要想法是模拟自然界中生物遗传进化过程,从随机生成的公式种群开始,通过不断变异优化,逐渐生成适应度更优的公式群体。  Python 中的 gplearn 是目前最成熟的遗传规划包之一。但 gplearn 存在不能直接处理多维面板数据、不能进行时间序列运算等问题,所以不能直接运用于选股因子的挖掘,为此,我们将 gplearn 的底层代码进行了修改。  基于遗传规划算法进行因子挖掘的整体过程,包括设定随机种子、初始化种群、计算适应度、选择与进化、筛选有效因子五个步骤。回测区间为 2010.06.30 – 2020.06.30,每半年进行一次因子挖掘,以过去三年的月均因子收益率为适应度,每次得到 100 个有效因子,使样本外使用的因子保持最新的状态。  基于随机森林模型进行 Alpha 预测,直接由初始 Alpha 因子库得到预测收益率。随机森林模型逻辑简单,参数调整容易,数据过拟合的可能性小,其基分类器决策树可实现噪音变量的剔除,适合处理多变量问题,实际应用效果好。  经过遗传规划算法可以从日频量价数据中挖掘出有效的月频技术类指标,叠加到传统技术类因子库中之后,多空组合收益和稳定性均有所提高,但提升并不显著。遗传算法技术类因子与传统技术类因子相比,IC、ICIR、多空组合月均收益均有提高。叠加传统技术类因子后,合成因子库的组合表现相比传统技术类因子也有所提升,最大回撤有所降低,但增量在统计上并不显著。  经过遗传规划算法可以从财务报表数据中挖掘出有效的月频财务类指标,因子整体表现不如传统财务因子,但差异也不显著。遗传算法财务类因子与传统财务类因子相比,IC、ICIR、多空组合月均收益均有降低。叠加传统财务类因子后,相比传统财务类因子,表现也有降低,差异在统计上不显著。  在低频领域,挖掘新因子相对成熟因子库的增量有限,组合收益更多还得靠因子择时。 风险提示  量化模型失效风险  市场极端环境的冲击 Table_ Base Info 报告发布日期 2020 年 09 月 11 日 证券分析师 朱剑涛 021-63325888*6077 zhujiantao@orientsec.com.cn 执业证书编号:S0860515060001 证券分析师 刘静涵 021-63325888*3211 liujinghan@orientsec.com.cn 执业证书编号:S0860520080003 相关报告 机器增强一致预期 2020-09-01 因子加权过程中的大类权重控制 2020-08-04 宏观数据季节调整与运用 2020-05-31 东方 A 股因子风险模型(DFQ-2020) 2020-05-28 基于时间尺度度量的日内买卖压力 2020-04-21 跨品种无风险利率曲线构建与应用 2020-02-27 主动买卖单的批量成交划分法 2020-02-25 从北上资金中提取的系列 alpha 因子 2020-02-08 关于组合换手的若干问题 2020-01-05 有关分析师的申明,见本报告最后部分。其他重要信息披露见分析师申明之后部分,或请与您的投资代表联系。并请阅读本证券研究报告最后一页的免责申明。 2 目 录 一、机器学习在 Alpha 模型中的应用 ............................................................. 4 二、遗传算法介绍 .......................................................................................... 5 三、技术类因子挖掘测试 ............................................................................... 6 1. 测试数据 .................................................................................................................... 6 2. 因子表达式 ................................................................................................................ 6 3. 适应度指标 ................................................................................................................ 7 4. 遗传规划参数设置 ...................................................................................................... 8 5. 因子挖掘 .................................................................................................................... 8 6. 组合回测 .................................................................................................................. 12 四、财务类因子挖掘测试

立即下载
金融
2020-09-20
东方证券
24页
1.32M
收藏
分享

[东方证券]:《因子选股系列研究之七十》:机器因子库相对人工因子库的增量,点击即可下载。报告格式为PDF,大小1.32M,页数24页,欢迎下载。

本报告共24页,只提供前10页预览,清晰完整版报告请下载后查看,喜欢就下载吧!
立即下载
本报告共24页,只提供前10页预览,清晰完整版报告请下载后查看,喜欢就下载吧!
立即下载
水滴研报所有报告均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。
相关图表
“内循环”概念股名单(2020-08-20)
金融
2020-09-20
来源:“数据观市”系列研究之一:从新闻数据看时事热点之“内循环”
查看原文
“内循环”新闻数量统计:分行业
金融
2020-09-20
来源:“数据观市”系列研究之一:从新闻数据看时事热点之“内循环”
查看原文
“供给侧”新闻数量统计:分媒体 图 23:“内循环”新闻数量统计:分媒体
金融
2020-09-20
来源:“数据观市”系列研究之一:从新闻数据看时事热点之“内循环”
查看原文
上证综指历史走势
金融
2020-09-20
来源:“数据观市”系列研究之一:从新闻数据看时事热点之“内循环”
查看原文
“供给侧”新闻热度 图 20:“内循环”新闻热度
金融
2020-09-20
来源:“数据观市”系列研究之一:从新闻数据看时事热点之“内循环”
查看原文
中国对外进口额前十产品(亿美元) 图 18:中国对外出口额前十产品(亿美元)
金融
2020-09-20
来源:“数据观市”系列研究之一:从新闻数据看时事热点之“内循环”
查看原文
回顶部
报告群
公众号
小程序
在线客服
收起