华泰人工智能系列之三十七:舆情因子和BERT情感分类模型
免责声明和披露以及分析师声明是报告的一部分,请务必一起阅读。 1 证券研究报告 金工研究/深度研究 2020年10月22日 林晓明 SAC No. S0570516010001 研究员 SFC No. BPY421 0755-82080134 linxiaoming@htsc.com 李子钰 SAC No. S0570519110003 研究员 0755-23987436 liziyu@htsc.com 何康 SAC No. S0570520080004 研究员 021-28972039 hekang@htsc.com 王晨宇 SAC No. S0570119110038 联系人 02138476179 wangchenyu@htsc.com 1《金工: 风格稳定的绩优股票基金筛选策略》2020.10 2《金工: 2020 年三季度中国 ETF 市场回顾》2020.10 3《金工: 竞速科技赛道:科技投资新工具》2020.10 舆情因子和 BERT 情感分类模型 华泰人工智能系列之三十七 本文研究了基于金融新闻的舆情因子,并测试了 BERT 文本情感分类模型 随着国内量化投资的发展,挖掘另类数据中的增量信息逐渐受投资者关注。另类数据中一大类数据就是舆情文本数据。本文提取 Wind 金融新闻数据中的情感正负面标签构建新闻舆情因子,因子在沪深 300 内表现最好。进一步地,本文介绍了前沿的自然语言处理(NLP)模型 BERT 的原理和训练方法,并基于 Wind 的有标注金融新闻数据训练金融新闻情感分类模型,模型在正负不平衡样本上达到了很高的预测精度。最后,本文介绍了 BERT模型可解释性工具 LIT。通过 LIT 可分析文本中字符对于预测结果的重要性并帮助理解 BERT 的学习机制。 基于金融新闻的舆情因子具有一定选股效果,在沪深 300 内表现最好 本文基于 Wind 金融新闻数据,提取其中的情感正负面标签,构建日频的新闻舆情因子。2017 年以来,因子在沪深 300、中证 500、全 A 股的平均覆盖率分别为 84.41%,76.16%,63.03%,且覆盖率随时间推移逐渐上升。因子在沪深 300 成分股内表现最好,行业市值中性后 RankIC 均值为6.13%,IC_IR 为 0.42,分 5 层测试中 TOP 组合年化收益率为 17.79%,多空组合夏普比率为 1.66。因子在中证 500 成分股内表现次之,在全 A 股内则表现最差。 前沿的 NLP 模型 BERT 能实现高精度的金融新闻情感分类 近年来, NLP 领域最前沿的研究成果是预训练模型 BERT。模型首先使用大量无监督语料进行语言模型预训练,再使用少量标注语料进行微调来完成具体任务(如本文的金融新闻情感分类)。本文介绍了 BERT 的核心原理:Transformer 和自注意力机制。随后,本文基于 Wind 的有标注金融新闻数据,使用 BERT 训练金融新闻情感分类模型。模型在正负不平衡样本上达到了很高的预测精度,样本外的准确率为 0.9826,AUC 为 0.9746,精确率为 0.9736,召回率为 0.9744。 打开 BERT 模型的黑箱:模型可解释性工具 LIT 介绍 BERT 模型结构复杂且参数量庞大,本文借助 Google 发布的开源 NLP 模型可解释性工具 LIT 来打开 BERT 的黑箱,理解 BERT 的“思考过程”。LIT 有两个重要模块:(1) Salience Maps 模块,可分析输入文本中每个字符对于模型预测结果的重要性。例句中的结果显示,正面情感新闻中“同比预增”、“中标”等字符重要性较高,负面情感新闻中“风控”、“摘牌”、“减持”等字符重要性较高。说明 BERT 都能够较好地抓住文本中的关键词,做出准确预测。(2) Attention 模块,可分析注意力权重,从而帮助理解 BERT 的学习机制。 风险提示:舆情因子的测试结果是历史表现的总结,存在失效的可能。本文使用的金融新闻数据只覆盖了部分新闻来源,构建的因子可能是有偏的。模型可解释性工具 LIT 可能存在过度简化的风险。 相关研究 金工研究/深度研究 | 2020 年 10 月 22 日 免责声明和披露以及分析师声明是报告的一部分,请务必一起阅读。 2 正文目录 本文研究导读 .................................................................................................................... 4 基于 Wind 金融新闻数据的选股因子 ................................................................................. 5 Wind 金融新闻数据说明 ............................................................................................ 5 新闻舆情因子构建 ..................................................................................................... 7 单因子测试方法简介 .................................................................................................. 8 回归法 ................................................................................................................ 8 IC 值分析法 ....................................................................................................... 9 分层回测法 ........................................................................................................ 9 新闻舆情因子测试结果 ............................................................................................ 10 回归法和 IC 值分析法 ...................................................................................... 10 分层测试法 ...............................................................
[华泰证券]:华泰人工智能系列之三十七:舆情因子和BERT情感分类模型,点击即可下载。报告格式为PDF,大小2.38M,页数28页,欢迎下载。
