华泰人工智能系列之二十九:提升超额收益,另类标签和集成学习20200319-华泰证券

谨请参阅尾页重要声明及华泰证券股票和行业评级标准 1 证券研究报告 金工研究/深度研究 2020年03月19日 林晓明 执业证书编号:S0570516010001 研究员 0755-82080134 linxiaoming@htsc.com 陈烨 执业证书编号:S0570518080004 研究员 010-56793942 chenye@htsc.com 李子钰 执业证书编号:S0570519110003 研究员 0755-23987436 liziyu@htsc.com 何康 021-28972039 联系人 hekang@htsc.com 王晨宇 联系人 wangchenyu@htsc.com 1《金工: 不确定性与缓冲机制 》2020.03 2《金工: 周期是矛盾双方稳定共存的结果》2020.03 3《金工: 周期是不确定性条件下的稳态》2020.03 提升超额收益:另类标签和集成学习 华泰人工智能系列之二十九 另类标签和集成学习有助于提升人工智能选股模型的超额收益 对于量化选股模型来说,另类标签指有别于收益率的标签,也可视为一种“另类数据”。本文通过设置多种测试情形,对比了另类标签(信息比率和Calmar 比率)与传统收益率标签在构建人工智能选股模型的优劣。相比收益率标签,另类标签在全 A 股优势显著,能明显提升选股模型的超额收益和信息比率;另类标签在指数成分股内优势较小,仅对超额收益的提升有一定作用。本文进一步使用集成学习对多种标签构建的模型进行集成。集成模型的超额收益和信息比率有稳定提升,Calmar 比率也有较好表现。集成学习也可避免使用单一模型的风险,起到“模型分散化”的效果。 本文认为使用另类标签有三个方面的合理性 (1)另类标签相比收益率包含更多信息。传统的收益率标签只利用了时间区间两端的价格信息,忽略了区间内的价格走势。本文测试的另类标签包含了股票在区间内的收益、波动和回撤信息,具有更大信息量。(2) 标签也是一种指标,过度使用存在交易拥挤的可能性。标签通过损失函数的作用可以直接影响到输入选股因子的权重,不同的标签对于因子权重的影响不同。如果市场中大量的投资者使用收益率为标签,则存在交易拥挤的可能,此时如果使用一些另类标签,则可能开辟一片投资的“蓝海”。(3) 现有的一些研究中,也使用有别于收益率的另类标签来构建模型。 本文使用了在多种训练期长度下测试的方法对比不同标签构建的模型 如果仅对不同标签构建的模型进行单次测试对比,所得出的结论未必可靠。此时有必要进行多次对比测试来获得统计意义上的“确定结果”。本文在多种不同训练期长度下进行测试对比,训练期长度从 6 个月到 72 个月共 67种情形,在 67 种情形中,可以统计不同标签构建的模型在各个评价指标上的分布情况,从而得到更具有说服力的结果。此外,多种训练期长度训练的模型也为集成学习提供了大量可用的子模型。 相比收益率标签,另类标签在全 A 股优势显著,在指数成分股内优势较小 在全 A 股中,另类标签相比收益率标签构建的模型在年化超额收益率、信息比率、Calmar 比率上表现都更好,年化超额收益率上的胜率在 90%左右。在中证 500 和中证 800 成分股中,另类标签相比收益率标签构建的模型仅在年化超额收益率上有较稳定的优势,胜率在 58.21%~76.12%之间。此外在以上所有测试中,另类标签相比收益率标签构建的模型在超额收益最大回撤上都表现更差。对模型进行因子重要性分析,另类标签相比收益率标签构建的模型,三大量价因子(动量反转、波动率、换手率)的重要性下降,财务质量和一致预期因子的重要性上升。 集成学习能充分利用不同模型的优点,在多个股票池内回测效果最好 为了充分利用不同模型的优点,本文将各个子模型的预测结果视为单因子,使用 3 种传统因子合成的方法(等权,历史 IC 加权,历史因子收益率加权)进行模型集成。相比使用单一模型的平均回测绩效,集成模型的超额收益和信息比率有稳定提升,Calmar 比率也有较好表现。集成学习也可避免使用单一模型的风险,起到“模型分散化”的效果。 风险提示:通过人工智能模型构建的选股策略是历史经验的总结,存在失效的可能。另类标签构建的选股模型回撤较大,使用须谨慎。 相关研究 金工研究/深度研究 | 2020 年 03 月 19 日 谨请参阅尾页重要声明及华泰证券股票和行业评级标准 2 正文目录 本文研究导读 .................................................................................................................... 5 人工智能选股中的另类标签 .............................................................................................. 6 另类标签的构造方法 .................................................................................................. 6 使用另类标签的合理性 .............................................................................................. 6 另类标签相比收益率包含更多信息 .................................................................... 6 标签也是一种指标,过度使用存在交易拥挤的可能性 ....................................... 6 现有的一些研究中,也使用有别于收益率的另类标签来构建模型 ..................... 7 如何对比不同标签的选股效果?在多种训练期长度下测试 ........................................ 7 如何充分利用不同标签的优点?进行模型集成 .......................................................... 7 另类标签测试流程 ............................................................................................................. 9 另类标签测试结果 ........................................................................................................... 12 全 A 股:另类标签的年化超额收益率、信息比率、Calmar 比率表现更好 .............. 12 以信息比率为标签 ...........................

立即下载
信息科技
2020-03-25
35页
1.47M
收藏
分享

华泰人工智能系列之二十九:提升超额收益,另类标签和集成学习20200319-华泰证券,点击即可下载。报告格式为PDF,大小1.47M,页数35页,欢迎下载。

本报告共35页,只提供前10页预览,清晰完整版报告请下载后查看,喜欢就下载吧!
立即下载
本报告共35页,只提供前10页预览,清晰完整版报告请下载后查看,喜欢就下载吧!
立即下载
水滴研报所有报告均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。
相关图表
重点公司估值表
信息科技
2020-03-25
来源:通信行业月报:新基建成经济复苏驱动力,运营商开始大规模设备招标集采
查看原文
通信板块与大盘 PE(TTM,剔除负值)对比
信息科技
2020-03-25
来源:通信行业月报:新基建成经济复苏驱动力,运营商开始大规模设备招标集采
查看原文
2019 年计算机、通信和其他电子设备固定资产投资情况
信息科技
2020-03-25
来源:通信行业月报:新基建成经济复苏驱动力,运营商开始大规模设备招标集采
查看原文
国内手机市场 19 年-20 年出货量情况
信息科技
2020-03-25
来源:通信行业月报:新基建成经济复苏驱动力,运营商开始大规模设备招标集采
查看原文
2015-2019 年移动互联网流量及月 DOU 增长情况
信息科技
2020-03-25
来源:通信行业月报:新基建成经济复苏驱动力,运营商开始大规模设备招标集采
查看原文
2015-2019 年固定数据及互联网业务收入及增速 图 6:2015-2019 年移动数据及互联网业务收入及增速
信息科技
2020-03-25
来源:通信行业月报:新基建成经济复苏驱动力,运营商开始大规模设备招标集采
查看原文
回顶部
报告群
公众号
小程序
在线客服
收起