金工深度研究:人工智能51,文本PEAD选股策略

免责声明和披露以及分析师声明是报告的一部分,请务必一起阅读。 1 证券研究报告 金工 人工智能 51:文本 PEAD 选股策略 华泰研究 研究员 林晓明 SAC No. S0570516010001 SFC No. BPY421 linxiaoming@htsc.com +86-755-82080134 研究员 何康,PhD SAC No. S0570520080004 SFC No. BRB318 hekang@htsc.com +86-21-28972039 研究员 李子钰 SAC No. S0570519110003 SFC No. BRV743 liziyu@htsc.com +86-755-23987436 联系人 陈伟 SAC No. S0570121070169 chenwei018440@htsc.com SUE.txt 增强池回测结果 资料来源:Wind,朝阳永续,华泰研究 2022 年 1 月 07 日│中国内地 深度研究 基于业绩公告相关文本的 SUE.txt 因子可以刻画 PEAD 效应 盈余后价格漂移效应(PEAD)是指股价在盈余公告发布后有较大概率向业绩高于或低于预期的方向漂移。传统 SUE 因子基于公告财务数据来衡量PEAD 效应并预测股票的异常收益,而本文尝试从纯文本的角度出发构建文本 SUE.txt 因子,对文本进行解构从而挖掘 alpha 信息。基于业绩预告与相关研报文本的数据实证表明,SUE.txt 因子具有较强的选股能力,机器学习模型对文本的拆分和解构与直观逻辑相符,模型可信度较高。最后使用华泰金工因子库对 SUE.txt 基础池进行增强,20130104-20211231 回测期年化收益 43.47%,相对中证 500 超额年化收益 29.98%;2021 年收益 52.79%。 滚动训练构建 SUE.txt 因子,特征为词频矩阵,标签为公告前后 2 日 AR 本文使用的公告为业绩预告,相关文本为分析师点评业绩预告研报文本标题和摘要。在对上述文本进行分词后,保留给定词性并选择样本内标题出现次数最多的 100 词和摘要出现次数最多的 500 词构建词频矩阵,作为模型的训练特征。同时计算业绩预告发布前后 2 个交易日相对中证 500 的超额收益,将其分为“上涨”、“震荡”、“下跌”三类,作为训练标签。最后,本文分别测试了 Logistic 模型和 XGBoost 模型,将模型预测的上涨和下跌类别的 log-odds 值之差,在进行指数衰减后,作为最终的 SUE.txt 因子。 SUE.txt 因子分层选股效果优秀,XGBoost 模型优于 Logistic 模型 每月末追溯过去一季度业绩预告并计算相应的 SUE.txt 因子进行分 5 层回测。从结果来看,基于 XGBoost 模型和 Logistic 模型分别构建的 SUE.txt因子分层表现均较为优秀,其中 XGBoost 模型的多头端收益与分层效果均优于 Logistic 模型,两者在第一层股票池的年化收益分别为 27.62%与24.68%,回测期为 20130104-20211231。此外,本文使用构建训练标签的2 日 AR 特征,在进行同样的指数衰减处理后直接作为因子进行回测,发现SUE.txt 因子在盈利能力和分层能力上均显著强于 2 日 AR 因子,说明SUE.txt 因子对 2 日 AR 因子具有明显的增益效果。 模型可解释性探索:词重要性分析结果与直观逻辑相符合 本文参考 Yano 等(2012)提出的词重要性和 Meursault 等(2021)采用的段落重要性概念,对模型的可解释性进行了探索。对词重要性分析的结果表明,“上调”、“预增”、“景气”等词对 SUE.txt 有较大的正面影响,而“下调”、“下滑”、“亏损”等词则有较大的负面影响,与直观逻辑相符。进一步本文构建了包含财报、运营、宏观环境和战略四大类的分类词典,将文本段落按其所包含的关键词进行分类。分析发现,描述宏观环境的段落占比最低,对 SUE.txt 有较大的正面影响;描述运营的段落占比最高,对 SUE.txt 有较大的负面影响;此外,描述财报的段落则包含较多好坏参杂的重要信息。 利用华泰金工因子库对 SUE.txt 股票池进行增强 本文选取 SUE.txt 因子的第一层股票分层作为基础池,选择华泰金工因子中分层效果较好且多头收益明显的因子对股池内的股票进行等权合成打分,并选择得分最高的 30 只股票作为增强池。在回测期 20130104-20211231 内,增强池年化收益 43.47%,夏普比率 1.57;相对中证 500 年化超额收益29.98%,2021 年绝对收益 52.79%,超额收益 36.19%。对成分股分析表明,SUE.txt 基础池与增强池在各板块的股票数量分布较为均衡,未出现板块明显超配的情况。 风险提示:通过机器学习模型构建选股策略是历史经验的总结,存在失效的可能。人工智能模型可解释程度较低,使用须谨慎。 -60%-40%-20%0%0102030402012-12-312013-12-312014-12-312015-12-312016-12-312017-12-312018-12-312019-12-312020-12-31最大回撤SUE.txt增强30组合(左轴)中证500(左轴) 免责声明和披露以及分析师声明是报告的一部分,请务必一起阅读。 2 金工研究 正文目录 文本 PEAD 选股框架 .................................................................................................................................................... 4 PEAD 效应回顾 ..................................................................................................................................................... 4 文本 SUE.txt 因子的提出思路 ............................................................................................................................... 4 业绩公告与文本数据 ............................................................................................................................................. 5 定期报告 ......................................

立即下载
金融
2022-01-20
华泰证券
30页
2.08M
收藏
分享

[华泰证券]:金工深度研究:人工智能51,文本PEAD选股策略,点击即可下载。报告格式为PDF,大小2.08M,页数30页,欢迎下载。

本报告共30页,只提供前10页预览,清晰完整版报告请下载后查看,喜欢就下载吧!
立即下载
本报告共30页,只提供前10页预览,清晰完整版报告请下载后查看,喜欢就下载吧!
立即下载
水滴研报所有报告均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。
相关图表
报告中涉及的所有细分因子及其计算方式
金融
2022-01-20
来源:金工量化投资月报:春季行情关注波动率、换手率因子
查看原文
Beta 因子去趋势后累计收益率与三周期回归拟合 图表47: 技术因子去趋势后累计收益率与三周期回归拟合
金融
2022-01-20
来源:金工量化投资月报:春季行情关注波动率、换手率因子
查看原文
波动率因子去趋势后累计收益率与三周期回归拟合 图表45: 换手率因子去趋势后累计收益率与三周期回归拟合
金融
2022-01-20
来源:金工量化投资月报:春季行情关注波动率、换手率因子
查看原文
小市值因子去趋势后累计收益率与三周期回归拟合 图表43: 反转因子去趋势后累计收益率与三周期回归拟合
金融
2022-01-20
来源:金工量化投资月报:春季行情关注波动率、换手率因子
查看原文
盈利因子去趋势后累计收益率与三周期回归拟合 图表41: 财务质量因子去趋势后累计收益率与三周期回归拟合
金融
2022-01-20
来源:金工量化投资月报:春季行情关注波动率、换手率因子
查看原文
估值因子去趋势后累计收益率与三周期回归拟合 图表39: 成长因子去趋势后累计收益率与三周期回归拟合
金融
2022-01-20
来源:金工量化投资月报:春季行情关注波动率、换手率因子
查看原文
回顶部
报告群
公众号
小程序
在线客服
收起