开源量化评论(26):新闻舆情数据选股能力初探
金融工程专题 请务必参阅正文后面的信息披露和法律声明 1 / 10 2021年07月09日 《开源量化评论(21)-从茅指数动力学研判抱团现状》-2021.3.30 《开源量化评论(22)-年报展望全扫描:基金经理如何看后市》-2021.4.6 《开源量化评论(23)-“金股+”组合的量化方案》-2021.4.26 《开源量化评论(24)-上市公司招聘数据的选股能力》-2021.5.12 《开源量化评论(25)-业绩超预期 Plus组合的构建》-2021.7.7》 新闻舆情数据选股能力初探 ——开源量化评论(26) 魏建榕(分析师) 傅开波(分析师) weijianrong@kysec.cn 证书编号:S0790519120001 fukaibo@kysec.cn 证书编号:S0790520090003 ⚫ 因子拥挤导致Alpha衰减,另类数据前景广阔 伴随着量化投资规模的蓬勃壮大,传统策略的同质化日趋严重,因子拥挤(Factors Crowding)的困境逐渐浮现,最终导致Alpha空间日渐缩窄。另类数据因其孕育的独特Alpha信息,为量化策略的收益提供了新的广袤空间。通联数据(Datayes)作为国内领先的数据智能金融科技公司,旗下的另类数据库种类丰富,其中新闻舆情数据作为其中另类数据的模块之一,蕴含丰富的股票情感信息。通联的新闻舆情数据,主要是对上市公司的新闻进行情感分数打分(SentimentScore),分数值越高通常意味着新闻对该个股有正面情绪。 ⚫ 通联新闻舆情数据的基本特征:样本总体略正偏,在财报季时新闻频次较多 我们对经初筛后共487万条新闻舆情数据进行描述性统计,总体来看,日均出现新闻舆情数据的个股在1600只左右。因新闻舆情数据来源广泛,媒介较多,较能满足总体上的客观公正,我们对所有样本的新闻舆情分数(SentimentScore)进行频数统计,总体来看新闻舆情分数略偏正向; 此外在每年的财报季时,新闻频次较多,尤其是4月叠加上市公司年报和一季报时,新闻频次达到了一年最高。 ⚫ 新闻舆情均值的变化量在中证500选股域上的绩效表现优异 我们根据通联新闻舆情数据,计算过去 N 天舆情分数平均值的变化量,记为因子(简记为∆𝑀𝑆):∆𝑀𝑆因子的多空收益比在全样本区间内表现良好,尤其在中证500 选股域上表现优异:在回看天数=20 下,多空收益波动比为 2.2,多头相对中证 500 的年化收益率为 4.6%。 对∆𝑀𝑆𝑁=𝟐𝟎因子进行三种不同换仓频率下的绩效测试:整体表现:双周频>月频>周频。在双周频上该因子的多空对冲年化收益率为 12.00%,,因子的年化 ICIR为-2.3;月频下,该因子的多空对冲年化收益率 11.92%,因子年化 ICIR 为-2.00。 ∆𝑀𝑆𝑁=20因子与过去 20 日涨跌幅的相关性有一定正相关性,相关性接近 0.1,与其余常见因子的相关性较弱,对该因子剔除常见 10 个因子后,剥离得到后的因子在中证 500 选股域上的表现依然优异:多空收益波动比达 2.64,年化 ICIR-2.27,多头相对中证 500 年化收益率 4.86%。 ⚫ 风险提示:模型测试基于历史数据,市场未来可能发生变化。 相关研究报告 金融工程研究团队 开源证券 证券研究报告 金融工程专题 金融工程研究 魏建榕(首席分析师) 证书编号:S0790519120001 张 翔(分析师) 证书编号:S0790520110001 傅开波(分析师) 证书编号:S0790520090003 高 鹏(分析师) 证书编号:S0790520090002 苏俊豪(研究员) 证书编号:S0790120020012 胡亮勇(研究员) 证书编号:S0790120030040 王志豪(研究员) 证书编号:S0790120070080 盛少成(研究员) 证书编号:S0790121070009 苏 良(研究员) 证书编号:S0790121070008 金融工程专题 请务必参阅正文后面的信息披露和法律声明 2 / 10 目 录 1、 因子拥挤导致 Alpha 衰减,另类数据前景广阔 ..................................................................................................................... 3 2、 新闻舆情数据的基本特征 ........................................................................................................................................................ 3 2.1、 新闻舆情数据的样例 ..................................................................................................................................................... 3 2.2、 新闻舆情分数总体略偏正向,样本分布具有月度效应 .............................................................................................. 4 3、 ∆𝑴𝑺𝑵因子在中证 500 选股域上表现优异 .............................................................................................................................. 5 4、 风险提示 .................................................................................................................................................................................... 8 图表目录 图 1: 通联新闻舆情数据样例 ....................................................................................................................................................... 3 图 2: 日均有新闻舆情的个股约 1600 只 .........................................................................................................................
[开源证券]:开源量化评论(26):新闻舆情数据选股能力初探,点击即可下载。报告格式为PDF,大小0.7M,页数10页,欢迎下载。
