华泰人工智能系列之十九:偶然中的必然,重采样技术检验过拟合

谨请参阅尾页重要声明及华泰证券股票和行业评级标准 1 证券研究报告金工研究/深度研究 2019年04月22日 林晓明 执业证书编号:S0570516010001 研究员 0755-82080134 linxiaoming@htsc.com 陈烨 执业证书编号:S0570518080004 研究员 010-56793942 chenye@htsc.com 李子钰 0755-23987436 联系人 liziyu@htsc.com 何康 021-28972039 联系人 hekang@htsc.com 1《金工: 机器学习选股模型的调仓频率实证》2019.04 2《金工: 市值因子收益与经济结构的关系》2019.03 3《金工: 人工智能选股之数据标注方法实证》2019.03 偶然中的必然:重采样技术检验过拟合 华泰人工智能系列之十九Bootstrap 是一种可行的构建“平行 A 股市场”的重采样方法 Bootstrap 是一种可行的构建“平行 A 股市场”的重采样方法,能够模拟机器学习不同环节的随机性,从而检验在真实 A 股市场中得出的研究结论是否为过拟合。我们分别对样本内数据、样本外数据和回测时间进行Bootstrap 重采样,发现在“平行 A 股市场”中分组时序交叉验证方法的模型性能和单因子回测指标均优于其它两种方法,统计检验结果显著。真实世界的研究结论能够在平行世界中复现,表明该结论为过拟合的可能性较低。我们借助“偶然”的工具,探寻出“必然”的规律。 Bootstrap 重采样的核心思想是有放回地抽样 Bootstrap 是一种统计学上的重采样方法,又称自举法,主要用于研究统计量的统计特性。该方法的核心思想是有放回地抽样。对原始数据集进行有放回地抽样,得到 N 组 Bootstrap 数据集。每组 Bootstrap 数据集中,有的样本可能被重复抽到,有的样本没有被抽到。计算每一组 Bootstrap 数据集的统计量,将得到 N 组 Bootstrap 数据集的该统计量的分布,进而得到该统计量的统计量。 Bootstrap 重采样对机器学习量化研究体系的构建具有指导意义 Bootstrap 重采样对机器学习量化研究体系的构建具有指导意义。机器学习量化策略开发和传统量化策略开发的重要区别在于,机器学习研究的复杂度、其所涉及的环节、超参数和参数数量远超传统量化研究,任何环节随机性的引入,对最终整个系统都可能造成类似蝴蝶效应式的影响。本文采用 Bootstrap 模拟不同环节的随机性,系统性地评估随机性对机器学习结果的影响方向和影响程度。 机器学习不同环节随机性对模型表现的影响各异 三种 Bootstrap 方案对同一组交叉验证方法的影响方向和程度有区别。Bootstrap 样本内数据集相当于向训练集因子值添加小幅扰动,可能小幅削弱模型表现;Bootstrap 样本外数据集相当于向测试集因子值添加小幅扰动,可能部分增强或削弱模型表现;Bootstrap 回测时间即改变模型的回测时间段,可能大幅增强或削弱模型表现。上述结果对研究者的启示是在开发过程中需要密切关注训练数据的质量,同时应避免因回测时间选择不当而造成的误判。 Bootstrap 提供刻画随机性的思路,使研究者能基于指标分布进行决策 在以往的量化模型开发过程中,通常将历史回测表现视作确定性的结果,而忽略随机性对结果的影响。在面临不同量化策略的取舍之时,往往只是简单基于策略的年化收益率、夏普比率、收益回撤比等评价指标。Bootstrap重采样方法提供了一种刻画随机性的思路,使研究者能够基于评价指标的统计分布而非单个统计量,对模型优劣做出相对客观的判断和决策。本文从方法论的角度,对结合机器学习的多因子选股框架进行反思,针对模型比较和模型评价环节提出创新式的改造,希望对本领域的投资者有所启发。 风险提示:人工智能选股方法是对历史投资规律的挖掘,若未来市场投资环境发生变化,该方法存在失效的可能。机器学习选股模型随机性的来源多样,本研究只考虑有限的三种情况,存在忽略其它更重要随机性来源的可能。Bootstrap 重采样方法是对随机性的简单模拟,存在过度简化的可能。 相关研究 20476024/36139/20190423 16:51 金工研究/深度研究 | 2019 年 04 月 22 日 谨请参阅尾页重要声明及华泰证券股票和行业评级标准 2 正文目录 本文研究导读 .................................................................................................................... 5 采用 Bootstrap 重采样构建“平行世界” ......................................................................... 6 问题的提出:回测过拟合的困境 ............................................................................... 6 Bootstrap 重采样方法 ................................................................................................ 6 Bootstrap 和机器学习的关系 ..................................................................................... 8 构建“平行 A 股市场” ............................................................................................. 8 方法 ................................................................................................................................. 11 考察对象:三组交叉验证调参方法 .......................................................................... 11 人工智能选股模型测试流程 ..................................................................................... 12 单因子测试 .............................................................................................................. 15 回归法和 IC 值分析法 ...........................................

立即下载
信息科技
2019-04-28
华泰证券
28页
4.79M
收藏
分享

[华泰证券]:华泰人工智能系列之十九:偶然中的必然,重采样技术检验过拟合,点击即可下载。报告格式为PDF,大小4.79M,页数28页,欢迎下载。

本报告共28页,只提供前10页预览,清晰完整版报告请下载后查看,喜欢就下载吧!
立即下载
本报告共28页,只提供前10页预览,清晰完整版报告请下载后查看,喜欢就下载吧!
立即下载
水滴研报所有报告均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。
相关图表
“钉钉是一个新工作方式”,通过组织在线,沟通在线,协同在线,业务在线,生态在线助力组织实现“在线交互”
信息科技
2019-04-28
来源:浮现中的智能化组织:百年跃变+阿里
查看原文
阿里巴巴商业操作系统:助力智能组织
信息科技
2019-04-28
来源:浮现中的智能化组织:百年跃变+阿里
查看原文
未来,随着更加强大的人工智能工具的应用,智能洛可可将向着统一的智能产品创新平台发展
信息科技
2019-04-28
来源:浮现中的智能化组织:百年跃变+阿里
查看原文
“公园模式”生态示意图与特征分析
信息科技
2019-04-28
来源:浮现中的智能化组织:百年跃变+阿里
查看原文
围绕产业互联,洛客平台探索社会化生态运行的内部机制,初步形成了“公园模式”
信息科技
2019-04-28
来源:浮现中的智能化组织:百年跃变+阿里
查看原文
洛可可基于大数据、智能化时代的平台型组织将平台运营、基础服务等职能前置,强调“大中台”的赋能作用,并结合在线化发挥后台数据沉淀促进业务智能高效的作用
信息科技
2019-04-28
来源:浮现中的智能化组织:百年跃变+阿里
查看原文
回顶部
报告群
公众号
小程序
在线客服
收起