机器学习和知识图谱在行业轮动中的应用
《机器学习和知识图谱在行业轮动中的应用》 证券研究报告 海通证券研究所 金融工程部 2020年5月25日 分析师:冯佳睿 分析师:梁镇 Tel: (021)23219732 Tel: (021)23219449 Email: fengjr@htsec.com Email: lz11936@htsec.com SAC号码:S0850512080006 SAC号码:S0850519110004 分析师:张振岗 Tel: (021)23154386 Email: zzg11641@htsec.com SAC号码:S0850519050001 1 请务必阅读正文之后的信息披露和法律声明 研究背景 我们在行业轮动系列报告中挖掘了几大类的行业因子,这些因子通常都是行业本身的特征或者基于共同外生变量变动的行业预测收益。 今天我们从另一个角度研究行业收益的可预测性:相关行业的滞后收益率。 nQmQmOzRzRaQcM7NpNqQtRpPkPqQnQkPpNoQaQpOoQvPoMzRxNqQmO请务必阅读正文之后的信息披露和法律声明 2 实际上,如果市场完全理性、无摩擦,滞后行业的收益率是不应该有预测效果的。但真实的市场环境下并非如此。 理论基础 • 投资者处理信息的能力有限。当某个行业出现冲击时,信息处理的局限性使专门从事相关行业的投资者无法迅速得出冲击的全部影响。因此,信息逐渐在各个行业间扩散,由此导致股票价格延迟调整。从而可以在行业滞后收益率的基础上,提高行业收益的可预测性。 • 来源:Hong et al. (2007) . Do Industries Lead Stock Markets? 应用难点 • 滞后的行业收益率可以通过与下一期目标行业收益率回归来构建模型。但由于预测回归模型中潜在的预测因子过多,传统的普通最小二乘法(OLS)估计存在缺陷: • 1、如果所有行业滞后的收益率都作为自变量,容易出现过拟合的情况; • 2、如果只选择了少数行业的滞后收益率,就很难先验地知道哪一个是最大的重要的,存在主观性。 解决办法 • 机器学习 • 采用机器学习的方法进行变量的筛选和降维,有效地防止过拟合。 • 知识图谱 • 引入先验的行业关联关系图谱,根据关联关系进行变量的挑选。 研究背景 基于post-lasso的 行业轮动策略 01 请务必阅读正文之后的信息披露和法律声明 3 4 请务必阅读正文之后的信息披露和法律声明 1.1 post-lasso方法介绍 •Lasso回归,全称Least absolute shrinkage and selection operator。该方法是一种压缩估计,也被称作线性回归的 L1 正则化。相比于普通最小二乘估计,它通过构造一个惩罚函数,在变量众多的时候快速有效地提取出重要变量,简化模型。其目标函数的表达式如下: •Post-Lasso方法是指先训练一个Lasso回归,其目的是进行特征选择,保留系数不为零的特征。用这些特征再重新训练一个最小二乘回归。相比于直接才有Lasso估计参数,Post-Lasso估计避免了过度收缩的问题,可以更准确地获得滞后行业收益中的预测信号。 •值得注意的是,通常Lasso会与k折交叉验证(k-fold CV)结合,以估计目标函数中的参数lamda。但由于CV K-fold对K折的数量以及选取样本的方式(随机、时间序列等)较为敏感,我们采用相对稳定的AIC法选取参数。 5 请务必阅读正文之后的信息披露和法律声明 根据Post-Lasso方法,我们选择1-t-1时刻的数据(至少60个月)进行滚动回测,2010/1-2020/3各行业lasso平均选择相关行业数量如下。 Lasso平均选择行业为2.48个,其中电力设备及新能源相关行业数量较多,平均达9.24个。 1.2 行业挑选结果 012345678910电力设备及新能源 医药 电子 有色金属 国防军工 交通运输 基础化工 建材 通信 电力及公用事业 非银行金融 汽车 石油石化 家电 房地产 煤炭 纺织服装 食品饮料 建筑 机械 传媒 钢铁 商贸零售 综合 轻工制造 银行 消费者服务 计算机 农林牧渔 图:各行业Lasso平均选择相关行业数量 资料来源:Wind,海通证券研究所 6 请务必阅读正文之后的信息披露和法律声明 1.2 行业挑选结果 石油石化煤炭有色金属电力钢铁基础化工建筑建材轻工制造机械电力设备 国防军工汽车商贸零售 消费者服务家电纺织服装医药食品饮料 农林牧渔银行非银行金融房地产交通运输电子通信计算机传媒综合石油石化1132225551075626346煤炭645414111116116830有色金属1220554531209111电力32058251043227735钢铁29893513484450基础化工333151175235625建筑813620128617105建材315152818221轻工制造1164681232014637机械162294841895164612254135742电力设备33123151158国防军工2111312363514汽车3732222865911410029商贸零售7035104271753651201021830消费者服务131322241365467143家电13101410422329114611012212322纺织服装67413116264671181医药77716642317食品饮料191121259262634012156243420农林牧渔1134154421556336411127银行633571515795271026114146非银行金融64333214813100252房地产163712334651201212334交通运输1677131515432532电子3171220461012631212010通信33410561415512348计算机310451221225115传媒64714221510117392510251031综合1055635286318145836219图:各行业历史选择行业次数(纵向) 资料来源:Wind,海通证券研究所 7 请务必阅读正文之后的信息披露和法律声明 从Lasso选择的结果来看,许多变量选择还是具有一定的经济意义的。 例如银行和房地产,均有超过10个行业曾经选择其成为相关行业因子。被选次数分别高达479次和528次,在29个行业中位列前五。这在经济上是合理的,因为许多行业的公司广泛依赖于金融中介融资。 1.2 行业挑选结果 煤炭有色金属电力钢铁基础化工建材电力设备汽车纺织服装医药食品饮料银行非银行金融交通运输电子传媒银行63357151579527 1026114 146房地产16371233465 1201212334图:银行和房地产行业历史被选择次数 资料来源:Wind,海通证券研究所 8 请务必阅读正文之后的信息披露和法律声明 值得注意的是,部分行业存在Lasso筛掉全部行业的情况,如下图所示。 出现未选择行业的情况时,我们采用t-12至t-1期间的平均月收益率进行填补。 1.3 出现未选择行业的填补方法 0%2
[海通证券]:机器学习和知识图谱在行业轮动中的应用,点击即可下载。报告格式为PDF,大小2.22M,页数33页,欢迎下载。