因子选股系列研究之八十六:研报文本情感倾向因子
有关分析师的申明,见本报告最后部分。其他重要信息披露见分析师申明之后部分,或请与您的投资代表联系。并请阅读本证券研究报告最后一页的免责申明。 金融工程 | 专题报告 研究结论 ⚫ 分析师研报数据是相对独立的信息源,本报告基于朝阳永续的研报标题和摘要文本、盈利预测,用多种 NLP 模型提取文本特征,判断研报的情感倾向。 ⚫ 文本的处理有多种多样的方式,文本特征具有稀疏的特性,本文通过正则匹配、同义映射、词向量映射三种方法对文本特征进行降维,在同样的特征维度中可以囊括更多的信息,提升因子表现的同时,增加了模型的可解释性。对降维后的特征用XGB 和 RNN 模型对研报盈利预测调整幅度进行回归训练。 ⚫ 本文用多种处理方法和模型构建了如下 5 个因子: 1. 词频因子 RPTF:统计训练窗口内的高频词,形成 log 词频矩阵,用 XGB 进行回归预测,全样本 Rank IC 3.4%,ICIR 1.3,年化收益率 20%。缺点是单词特征并不能体现出情感倾向,如果“利润”“成本”“增加”三个词同时出现的话,逻辑上模型并不能知道是利润在增加还是成本在增加,于是衍生出 RPRF 因子。 2. 正则表达式因子 RPRF:人工提取研报中常见、并且具有情感倾向的表达,类似于((产能)|(规模)|(如期)).∗ ((达产)|(投放)),形成 regex 的 One-Hot 矩阵,用 XGB 进行回归预测,全样本 Rank IC 3.5%,ICIR 1.7,年化收益率 19%。缺点是人工提取regex 费时费力且不全面,需要不断更新表达式以适应新的表达,于是衍生出 RPBF因子。 3. 同义映射词组因子 RPBF:将分词用同义词进行映射降维,相邻两词组成一个词组,统计高频词组,形成词组频矩阵,用 XGB 进行回归预测,全样本 Rank IC 3.5%,ICIR 1.5,年化收益率 19%。缺点是只包括了文本的离散特征而遗漏了文本的时序特征,于是衍生出 RPNN 因子。 4. 循环神经网络因子 RPNN:将分词序列用词向量进行映射,形成词向量序列,用单层 GRU 进行训练预测,全样本 Rank IC 3.0%,ICIR 1.2,年化收益率 16%。缺点是比较消耗算力,只能对标题进行训练,且模型比较黑箱。 5. 合成因子 RPST:由前面四个因子等权合成,全样本 Rank IC 3.8%,ICIR 1.4,年化收益率 20%,中性化之后全样本 Rank IC 3.9%,ICIR 2.4,年化收益率 19%,各项回测指标都超过 WFR,符合预期。 ⚫ 本文分开使用标题文本和摘要文本提取体征,因为经过测试发现摘要文本中蕴含着大量增量信息,在 RPTF 模型中摘要信息的加入能够提升一倍的多头年化收益率,从 5%提升到 11%。 ⚫ 前四个因子使用相同的文本数据和训练标签,但是彼此之间的因子相关性在 0.57-0.67,相关性并不算高,说明对于文本的不同特征抓取方式其实包含了不同的信息。将训练标签——盈利调整,按照同样的方式构建成因子,可以发现四因子和盈利调整均值的相关性在 0.42-0.55,说明模型从文本中学习到了额外的信息。 ⚫ RPST 在各个样本空间进行行业市值中性化之后,选股能力 RankIC 在中证 1000 中提升到了 4.5%,而在沪深 300 中下降到了 2.4%,这种现象在 WFR 因子中也同样存在,而在全样本中,中性化之后 ICIR 和 Sharpe 都有明显提升,MaxDD 在各样本空间都显著下降,说明选股能力和盈利能力在剔除了行业市值的影响之后都变得更加稳定。 风险提示 量化模型失效风险;市场极端环境冲击 报告发布日期 2022 年 12 月 06 日 王星星 021-63325888*6108 wangxingxing@orientsec.com.cn 执业证书编号:S0860517100001 薛耕 xuegeng@orientsec.com.cn 标题 日期 更稳健易算的分析师盈利上调因子:——《因子选股系列研究 之 七十三》 2021-03-09 研报文本情感倾向因子 ——《因子选股系列研究之八十六》 RankICICIRTurnoverSharpeAnnRetVolMaxDD全样本0.0381.43539.2%1.75720.4%0.109-27.6%全样本中性化0.0392.36942.5%2.31219.4%0.078-16.3%沪深3000.0360.97136.8%0.93813.4%0.145-40.6%沪深300中性化0.0241.24742.4%0.9279.3%0.101-29.8%中证5000.0290.99937.3%1.24715.8%0.124-32.6%中证500中性化0.0352.07841.1%1.97917.7%0.084-13.4%中证8000.0321.04935.2%1.32916.4%0.119-27.7%中证800中性化0.0291.94142.7%1.79915.3%0.081-19.2%中证10000.0281.23638.2%1.78819.5%0.103-22.4%中证1000中性化0.0453.46138.9%2.39618.7%0.073-10.9%RPST因子表现 金融工程 | 专题报告 —— 研报文本情感倾向因子 有关分析师的申明,见本报告最后部分。其他重要信息披露见分析师申明之后部分,或请与您的投资代表联系。并请阅读本证券研究报告最后一页的免责申明。 2 目 录 1. 概括......................................................................................................... 6 2. 数据说明 ................................................................................................. 6 2.1 个股报告 ...................................................................................................................... 6 2.2 分词 .............................................................................................................................. 7 3. 词频因子 RPTF ....................................................................................... 8 3.1 RPTF 模型框架 ...................................................
[东方证券]:因子选股系列研究之八十六:研报文本情感倾向因子,点击即可下载。报告格式为PDF,大小1.98M,页数27页,欢迎下载。
