Alpha掘金系列之十一:基于BERT-TextCNN的中证1000舆情增强策略
敬请参阅最后一页特别声明 1 金融论坛中的舆情信息蕴含了丰富的股民情绪,可能影响其交易行为进而影响股价,通过对金融论坛中股民的发帖信息进行情感分析,有望能够挖掘到有效的选股因子。我们已经在《Alpha 掘金系列之八:FinGPT 对论坛评论情感的精准识别——沪深 300 另类舆情增强因子》报告中构建了沪深 300 指数增强策略,本次我们将基于中证 1000 指数成分股股票池,构建中证 1000 指数增强策略。 本报告采用子长科技提供的中证 1000 指数成分股相关的金融论坛股民发帖数据,使用了 2018 年至 2023 年的超 5000万条的主帖文本内容。经预处理后,我们在主帖文本数据中抽取部分样本进行训练和验证,我们利用大语言模型进行这部分样本的标注,然后采用 BERT-TextCNN 模型进行针对金融论坛舆情信息的特定任务训练,最终构建出文本情感识别模型,将股评信息标注为积极、消极、悲观三类。BERT 模型通常用于提取文本的深层次语义信息和上下文信息,而 TextCNN 模型则用于捕捉文本的局部特征,两者结合可以同时利用全局和局部特征进行文本分类。我们训练后的BERT-TextCNN 模型样本外准确率超过 85%,我们用该模型对超过 5000 万条股评信息进行情感分类。 我们利用金融论坛舆情信息文本情感评分结果,从多维度构建了周频舆情选股因子,包括情绪一致性、关注度、周内关注度波动、整体情绪、周内情绪波动等因子。我们用积极/消极帖子占比来刻画情绪一致性,两个因子均显著,积极帖子占比因子 IC 值为负值,即积极情绪一致的股票未来股价可能较差。我们用主帖数、积极帖子数、消极帖子数来刻画关注度,积极帖子数量因子 IC 值为-6.22%,多空年化收益率为 59.41%,即中证 1000 股票池中,关注度越高的股票,未来表现越差。我们用积极帖子数量减去消极帖子数量来衡量股民整体情绪,整体情绪因子 IC 均值为 3.86%,即整体情绪越积极,未来一周股票表现越好。此外,关注度波动因子、情绪波动因子的 IC 均值均为负值。 我们将五个维度的因子进行等权重合成,合成因子 IC 达到 6.13%,风险调整的 IC 为 0.71,t 统计量达到 12.4,多空年化收益率为 54.76%,多空组合夏普比率为 4.07,而多空组合最大回撤率为 9.02%。合成因子分位数组合单调性较好,top 组合的年化超额收益率能够达到 12.99%。合成后的舆情因子与传统选股因子的相关系数也均不超过 0.3。 我们利用构建的舆情因子,我们基于如下条件构建了中证 1000 指数增强策略:选股范围是中证 1000 指数成分股,回测时间区间是 2018.1.8-2023.12.29,每周第一个交易日进行调仓,按开盘价进行交易,调仓日根据合成因子值从大到小进行排序,选择前 10%的股票等权重构建组合,交易成本设置为单边千分之二。我们设置了换手率缓冲条件,即上期持仓中如果当期仍然在前 0%与 35%内,则保留。基于金融论坛多维度舆情因子的中证 1000 指数增强策略,自 2018年初至 2023 年末,获得 10.85%的年化收益率,相对于中证 1000 指数获得了 13.95%的年化超额收益率,信息比率达到 1.56,超额净值最大回撤率为 9.52%。除 2019 年之外,其余各年份均获得了正的超额收益率。 以上结果基于一定的假设条件、通过历史数据统计和测算完成,在市场环境发生变化时模型存在失效的风险;大语言模型对文本进行情感分析的结果具有一定的随机性,存在一定的随机性风险。 金融工程专题报告 敬请参阅最后一页特别声明 2 扫码获取更多服务 内容目录 1、引言......................................................................................... 4 2、金融论坛舆情信息的情感评分方法............................................................... 4 2.1 数据来源................................................................................ 4 2.2 数据基本情况介绍........................................................................ 5 2.3 大语言模型与传统 NLP 模型相结合的文本情感识别步骤........................................ 5 2.4 数据预处理.............................................................................. 6 2.5 大语言模型标注样本 ...................................................................... 6 2.6 文本情感分析模型的选择与构建............................................................ 8 2.7 模型训练及金融论坛舆情信息的文本情感分类结果........................................... 10 3、多维度舆情因子构建与回测.................................................................... 11 3.1 样本预处理............................................................................. 11 3.2 周频舆情选股因子计算方式与回测方法介绍................................................. 11 3.3 多维度舆情因子构建..................................................................... 12 3.4 多因子合成与测试....................................................................... 15 3.5 舆情因子与传统选股因子的相关性较低..................................................... 16 3.6 因子覆盖度............................................................................. 17 4、基于金融论坛多维度舆情因子的中证 1000 指数增强策略构建....................................... 17 4.1 基于金融论坛多维度舆情因子的中证
[国金证券]:Alpha掘金系列之十一:基于BERT-TextCNN的中证1000舆情增强策略,点击即可下载。报告格式为PDF,大小2.12M,页数20页,欢迎下载。