“拾穗”多因子系列报告(第5期):数据异常值处理,比较与实践
金金工点评 2019 年 03 月 17 日 数据异常值处理:比较与实践 金融工程 投 资要点: 数据异常值处理:比较与实践 在进行回归分析或因子相关性分析时,因子暴露的异常值可能会极大影响回归系数和数据的相关系数。 常用的异常值处理方法有均值标准差修正法、固定比率修正法、中位数去极值法、Beat G.Briner 方法、因子排序值标准化法、箱形图法和无量纲处理方法,这些方法各有优劣。 相较于价量因子,财务数据特别是增长率类数据所含的异常值更多。经实证检验,对于各类数据而言,中位数去极值法和箱形图法是更为稳健的方法。 相较于传统的 OLS 回归法,基于分位数回归的方法更不容易受极端值影响,且能够更为全面地描述被解释变量条件分布的全貌。 市 场风格解析 整体来讲,在过去的一个月中,高 Beta、高波动的股票能够获得相对较高的收益,而大规模、前期涨幅过高的股票后市走势将会出现更为明显的回撤。 指 数风险预测 所有样本指数在未来一个月的年化波动区间在 21%-31%之间,相较上周出现小幅攀升,财通金工特别提醒投资者注意当前市场的波动情况。 指 数成分收益归因 上周市场风格并不明朗,在表现占优的三只指数中,有以大盘、价值为代表的 380 价值指数,也有以中小盘、成长为代表的中证 800 指数,而在表现较差的三只指数中,有以大盘为代表的超大盘指数,也有以小盘为代表的创业板指数。 风险提示:本报告统计结果基于历史数据,过去数据不代表未来,市场风格变化可能导致模型失效。 财通证券研究所 “拾穗”多因子系列报告(第 5 期) 请阅读最后一页的重要声明 以才聚财,财通天下 证券研究报告 联系信息 陶勤英 分析师 SAC 证书编号:S0160517100002 taoqy@ctsec.com 021-68592393 张宇 联系人 zhangyu1@ctsec.com 176216888421 021-68592220 相关报告 【1】“星火”多因子系列(一):《Barra 模型初探:A 股市场风格解析》 【2】“星火”多因子系列(二):《Barra 模型进阶:多因子模型风险预测》 【3】“星火”多因子系列(三):《Barra 模型深化:纯因子组合构建》 【4】“拾穗”多因子系列(一):《带约束的加权最小二乘:一种解析解法》 【5】“拾穗”多因子系列(二):《你看到的不一定是你所想的:解密 R 方》 【6】“拾穗”多因子系列(三):《行业因子选取:中信一级还是申万一级?》 【7】“拾穗”多因子系列(四):《总市值、 流通市值、自由流通市值:谈谈取舍》 谨请参阅尾页重要声明及财通证券股票和行业评级标准 2 证券研究报告 金工点评 内容目录 1、 数据异常值处理的常用方法比较与实践 .................................. 3 1.1 初识:异常值的危害..................................................... 3 1.2 探析:常用异常值处理方法介绍........................................... 4 1.3 比较:异常值处理方法的优劣性分析....................................... 8 1.4 检验:不同方法对于不同类别数据处理结果................................. 9 1.5 规避:基于分位数回归的方法............................................ 13 1.6 小结.................................................................. 14 2、 一周行情回顾 .................................................... 15 3、 市场风格解析及指数风险预测 ........................................ 16 3.1 市场风格解析.......................................................... 16 3.2 指数风险预测.......................................................... 18 4、 指数成分收益归因: ............................................... 19 5、 附录 ........................................................... 21 图表目录 图 1:单季度净利润同比增长率 VS 单季度营业收入同比增长率 ........................ 3 图 2:异常值处理的主要方法介绍 ................................................. 4 图 3:箱形图处理方法示意图 ..................................................... 6 图 4:单季度净利润同比增长率散点图 ............................................ 10 图 5:单季度净利润同比增长率因子异常值处理后对比图 ............................ 10 图 6:资产负债率因子散点图 .................................................... 11 图 7:资产负债率因子异常值处理后对比图 ........................................ 11 图 8:对数市值因子散点图 ...................................................... 12 图 9:对数市值因子异常值处理后对比图 .......................................... 12 图 10:分位数回归与 OLS 回归结果对比 ........................................... 13 图 11:上周主要指数收益(2019.3.8-2019.3.15) ................................. 15 图 12:上周中信一级行业指数收益(2019.3.8-2019.3.15) ......................... 15 图 13:近两周纯风格因子收益比较(2019.3.1-2019.3.15) ......................... 16 图 14:最近一个月风格因子净值走势(2019.2.13-2019.
[财通证券]:“拾穗”多因子系列报告(第5期):数据异常值处理,比较与实践,点击即可下载。报告格式为PDF,大小4.9M,页数23页,欢迎下载。
