人工智能63:再探文本FADT选股

免责声明和披露以及分析师声明是报告的一部分,请务必一起阅读。 1 证券研究报告 金工 人工智能 63:再探文本 FADT 选股 华泰研究 研究员 林晓明 SAC No. S0570516010001 SFC No. BPY421 linxiaoming@htsc.com +(86) 755 8208 0134 研究员 李子钰 SAC No. S0570519110003 SFC No. BRV743 liziyu@htsc.com +(86) 755 2398 7436 研究员 何康,PhD SAC No. S0570520080004 SFC No. BRB318 hekang@htsc.com +(86) 21 2897 2039 联系人 陈伟 SAC No. S0570121070169 chenwei018440@htsc.com +(86) 21 2897 2228 两版本文本因子多头第一层净值 资料来源:Wind,朝阳永续,华泰研究,回测期:20090123-20220930 不等权主动量化选股组合净值 资料来源:Wind,朝阳永续,华泰研究,回测期:20090123-20220930 不等权主动量化选股组合超额净值 资料来源:Wind,朝阳永续,华泰研究,基准中证 500,回测期:20090123-20220930 2022 年 10 月 28 日│中国内地 深度研究 人工智能 63:分析师研报文本挖掘框架升级 本文承接前期研究文本 FADT 选股,重点关注如何对文本因子本身进行升级。前期研究的核心思路是在特定场景下,以分析师研报文本的词频向量为特征,以研报发布前后两日个股超额收益为标签,引导 XGBoost 模型学习研报情绪蕴含的超额信息。在本文中我们将词频向量替换为 FinBERT 隐藏层编码的特征向量作为后续浅度学习模型的输入,隐藏层编码蕴含更丰富的文本语义信息,相比词频信息损失更少,以此带来更显著的 alpha 提升。 引入 FinBERT 编码以后文本因子收益提升明显 升级以后的文本因子十分层多头第一层年化收益由原版的 22.87%提升至27.50%,相对中证 500 超额收益由 14.75%提升至 19.19%(回测期20090123-20220930),提升较为明显。针对改进后的因子我们展示了三组应用案例:1)构建 25 只股票的主动量化不等权选股组合,年化收益 45.90%,相对中证 500 年化超额 36.35%;2)限制在总市值 100 亿以上的股票池中用文本因子构建等权精选组合,Top20 年化收益 31.12%,相对中证 500 年化超额 23.94%;3)构建沪深 300 内精选 30 不等权组合,年化收益 17.58%,相对沪深 300 年化超额 12.44%。 FinBERT 是专门针对金融领域训练的 BERT,使用 Adapter-BERT 微调 BERT 是 Google 在 2018 年提出的自然语言处理模型,在超过 11 项的 NLP任务中均取得十分惊艳的结果。本文使用熵简科技于 2020 年末开源的FinBERT 模型,对于金融领域任务具有更强的针对性,在金融领域的相关任务中表现均超过原版 BERT。由于 FinBERT 微调参数量超过 1 亿,我们使用 Adapter-BERT 技术在基本不影响模型微调性能的前提下,降低微调参数至约三百万,提升模型的训练效率。 模型升级:FinBERT 微调+CLS 层编码+XGBoost 二次训练 使用 FinBERT 来对分析师研报文本进行向量编码并构建文本因子,主要包括三个步骤:1)使用万得新闻舆情文本对 FinBERT 进行微调,使得 FinBERT的分类准确率可以达到 95%以上;2)使用 FinBERT 对分析师研报文本进行编码,将预处理过的研报文本输入给 FinBERT,提取 CLS 层输出作为研报的特征向量;3)使用上述编码好的特征向量替代词频向量,使用与原版模型同样的标签,引导 XGBoost 模型样本内进行交叉验证训练,样本外预测并构建 forecast_adj_txt_bert 因子。 多组扩展测试表明过拟合概率低,更充分的语义理解带来显著 alpha 提升 同样我们还是关注模型升级过程中是否有过拟合的问题。除了基础参数,我们展示了五组扩展测试:1)文本预处理时,截断和分段的比较;2)FinBERT微调与不微调的比较;3)CLS 层编码与全连接层编码的比较;4)CLS 层编码与词频特征结合是否有提升;5)仅使用 FinBERT 微调的效果。整体来看前四组测试都有效,模型升级大概率不是偶然因素导致的过拟合。 与传统因子相关性低,且不同场景下文本因子均有明显提升 此外我们讨论了 forecast_adj_txt_bert 因子与 Barra 因子及传统多因子的相关性,发现相关性较低,alpha 特异性较强。最后我们在不同的场景下讨论了文本因子升级的效果,发现在业绩发布场景、卖方分析师评级调整场景下文本因子均有明显提升,再次说明模型升级较为稳健。 风险提示:通过机器学习模型构建选股策略是历史经验的总结,存在失效的可能。人工智能模型可解释程度较低,使用须谨慎。量化因子历史结果不能预测未来,互联网开源模型需注意可复现性,敬请知悉。 01020304020092010201120122013201420152016201720182019202020212022FinBERT编码版词频向量版-200%-160%-120%-80%-40%0%05010015020020092010201120122013201420152016201720182019202020212022最大回撤(右轴)不等权增强组合回测净值中证500净值-50%-40%-30%-20%-10%0%020406020092010201120122013201420152016201720182019202020212022超额最大回撤(右轴)相对中证500净值 免责声明和披露以及分析师声明是报告的一部分,请务必一起阅读。 2 金工研究 正文目录 分析师研报文本挖掘框架升级 ...................................................................................................................................... 3 研究回顾................................................................................................................................................................ 3 文本挖掘框架的升级之路 ............................

立即下载
信息科技
2022-11-12
华泰证券
43页
4.99M
收藏
分享

[华泰证券]:人工智能63:再探文本FADT选股,点击即可下载。报告格式为PDF,大小4.99M,页数43页,欢迎下载。

本报告共43页,只提供前10页预览,清晰完整版报告请下载后查看,喜欢就下载吧!
立即下载
本报告共43页,只提供前10页预览,清晰完整版报告请下载后查看,喜欢就下载吧!
立即下载
水滴研报所有报告均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。
相关图表
全球出口金额同比变化
信息科技
2022-11-12
来源:电子行业专题研究:关注美股科技巨头Q3业绩
查看原文
工业生产指标:8 月美国和中国同比增速略有回升 图表65: 最近一周 EIA 商业原油库存微幅下降
信息科技
2022-11-12
来源:电子行业专题研究:关注美股科技巨头Q3业绩
查看原文
2022 年 9 月美国零售同比增速较前值小幅下降 图表63: 主要经济失业率:美国 9 月失业率小幅下降
信息科技
2022-11-12
来源:电子行业专题研究:关注美股科技巨头Q3业绩
查看原文
租金是 9 月美国 CPI 最大的环比拉动项
信息科技
2022-11-12
来源:电子行业专题研究:关注美股科技巨头Q3业绩
查看原文
美国 9 月份,粘性、半粘性通胀指标同比增速上行
信息科技
2022-11-12
来源:电子行业专题研究:关注美股科技巨头Q3业绩
查看原文
9 月动力电池装车量环比增长 14% 图表59: 8 月光伏电池产量同比增长 35%
信息科技
2022-11-12
来源:电子行业专题研究:关注美股科技巨头Q3业绩
查看原文
回顶部
报告群
公众号
小程序
在线客服
收起