金工深度研究: 新闻舆情分析的HAN网络选股
免责声明和披露以及分析师声明是报告的一部分,请务必一起阅读。 1 证券研究报告 金工 新闻舆情分析的 HAN 网络选股 华泰研究 研究员 林晓明 SAC No. S0570516010001 SFC No. BPY421 linxiaoming@htsc.com +86-755-82080134 研究员 李子钰 SAC No. S0570519110003 SFC No. BRV743 liziyu@htsc.com +86-755-23987436 研究员 何康,PhD SAC No. S0570520080004 SFC No. BRB318 hekang@htsc.com +86-21-28972039 联系人 陈伟 SAC No. S0570121070169 chenwei018440@htsc.com HAN 网络选股相对 300 等权超额净值 资料来源:Wind,华泰研究 2022 年 4 月 23 日│中国内地 深度研究 人工智能 56:使用混合注意力网络对个股的多条舆情进行挖掘 本文通过注意力机制来模仿人类学习新闻舆情时的“顺序内容依赖”和“多样化影响”,构建起对个股同一日多条新闻、不同自然日不同新闻进行文本挖掘从而预测个股短时走势的混合注意力机制网络 HAN(Hybrid Attention Networks),在沪深 300 股票池内构建的 TopK-Dropout 策略具有较为明显的多头端收益,对训练后模型的注意力系数进行分析表明各模块的注意力机制可以较好地聚焦于个股的重点舆情,与预期较为一致。 HAN 网络设置三组注意力模块:词语注意力、新闻注意力和时序注意力 HAN 网络主要通过三组注意力模块来模仿人类学习新闻舆情的过程。词语注意力是指人类在浏览文字时聚焦于某些关键的词语和语句,抽象出重要的信息,形成对文本的理解;新闻注意力是指人类在阅读多条新闻时由于新闻蕴含的信息差异从而赋予不同的关注度;时序注意力是指人们根据新闻重要性和时效性的日间差异,为不同日期分配关注度。三组注意力都以神经网络权重的形式体现,最终赋予那些对股价影响更大的新闻以更高的权重系数。 在沪深 300 股票池内进行数据实证,HAN 多头端收益明显 以沪深 300 指数成分股为股票池进行数据实证,每条样本设置为个股过去10 个自然日的舆情,每个自然日设置舆情上限为 5 条,预测个股未来一个交易日的涨跌。以样本外预测得到属于上涨类别的概率作为 HAN 日频因子,并构建 30 只股票等权持有的组合,每天根据 HAN 日频因子值替换 1 只股票 , 该 策 略 相 对 沪 深 300 等 权 的 年 化 超 额 为 15.96% , 回 测 期20190103-20220331,分层回测表明 HAN 日频因子多头端收益较为明显。 设置多组对照试验验证注意力机制的有效性 为验证注意力机制的有效性,采取空白对照的方式对比了四组实验的结果。 结果表明注意力机制的有无对最终结果有较大影响,有注意力模块的网络选股效果明显要好于无注意力模块的网络;不同模块注意力机制影响不同,词注意力模块的缺失对选股结果影响相对较小,去除词注意力模块以后年化收益与年化超额收益大约削减 2%左右;新闻注意力与时序注意力的缺失对选股结果影响较大。 对注意力系数进行可解释性分析,整体与预期相符,但仍存提升空间 分析各个模块的注意力系数,发现词注意力模块中模型会对有实际含义的词赋予较高的注意力,对专有名词赋予较低的注意力;新闻注意力中模型会对与个股直接相关的新闻赋予较高的注意力,对行业/宏观的新闻赋予较低的注意力;时序注意力模块中会对较近期的新闻赋予较高的注意力。整体来看注意力系数的分析具有一定的逻辑,与我们的预期较为符合。 风险提示:通过深度学习模型构建选股策略是历史经验的总结,存在失效的可能。人工智能模型可解释程度较低,使用须谨慎。量化因子的效果与宏观环境和大盘走势密切相关,历史结果不能预测未来,敬请注意。 -16%0%16%32%0.81.01.21.41.61.82.02019-01-032019-07-042019-12-272020-07-012020-12-242021-06-252021-12-21Top30-Dropout1-相对基准-费前最大回撤Top30-Dropout1-相对基准-费前(左轴)Top30-Dropout1-相对基准-费后(左轴) 免责声明和披露以及分析师声明是报告的一部分,请务必一起阅读。 2 金工研究 正文目录 研究背景 ............................................................................................................................................................... 4 HAN 混合注意力机制网络原理 ............................................................................................................................... 5 模型思想 ........................................................................................................................................................ 5 模型结构 ........................................................................................................................................................ 5 词嵌入 .................................................................................................................................................... 6 词语注意力机制 ...................................................................................................................................... 8 新闻注意力机制 ......................................................................................................................
[华泰证券]:金工深度研究: 新闻舆情分析的HAN网络选股,点击即可下载。报告格式为PDF,大小2.15M,页数29页,欢迎下载。
