金融工程研究报告:量化投资算法前瞻,强化学习
证券研究报告 | 金融工程深度 http://www.stocke.com.cn 1/25 请务必阅读正文之后的免责条款部分 金融工程深度 报告日期:2023 年 07 月 05 日 量化投资算法前瞻:强化学习 ——金融工程研究报告 核心观点 强化学习算法充分模拟了交易决策者与市场的交互关系,从策略管理、因子组合到交易执行,在量化投资的各个维度都提供了有效的模型和优化方法。 利用强化学习框架,本文构建了基于宽基指数日频价量模型的择时策略,迁移至行业指数依然有效。强化学习算法为策略优化提供了新思路。 ❑ 智能算法发展向金融领域渗透是趋势所向,市场对强化学习关注程度提升 数据与算法快速发展,算力成本逐渐降低,通用人工智能发展向垂直领域渗透是趋势所向,强化学习在其他细分领域的里程碑式成绩加速其在金融领域落地。 ❑ 基于马尔可夫决策过程,强化学习任务能充分模拟金融市场 强化学习算法的核心,是在马尔可夫决策过程的基础上,智能体通过与环境的交互,从反馈信号中进行学习。智能体依据环境状态,采取某种动作,对环境造成影响。随后,环境下一刻的状态和该动作产生的奖励将反馈给智能体。智能体的目标是尽可能多地从环境中获取总奖励,总奖励的定义是折现方式计算下的未来奖励之和。这种智能体-环境交互的情景能充分模拟交易决策者与市场的关系。 ❑ 从组合管理到交易执行,强化学习算法的应用市场广阔 在策略层面,强化学习算法针对传统多因子模型的因子失效,以及传统监督学习模型退化、过拟合等问题,提供了有效的因子组合、策略组合工具,更好地适应市场风格切换。在交易层面,以基于策略为代表的强化学习算法也提供了直接输出交易行为的下单算法。此外,强化学习在期权定价与对冲策略也有应用。纵观之下,从投资组合管理到具体的交易执行,强化学习算法在量化投资的多个领域提升了边际优化的空间。 ❑ 以双网络 DQN 算法构建灵活的单资产择时策略有明显超额 本文实现了基于双网络 DQN 的单资产择时策略,该算法中每隔一段时间间隔就更新对动作和状态价值评估的网络参数,这种设定使得策略动态调整,及时适应当期市场风格。以常见规模指数作为测试标的,中证 1000 指数择时效果较优,在 2019 至 2022 年实现了 111.14%的累计收益,相较于指数基准年化超额收益15.6%,最大回撤和年化波动率均得到有效控制。以最优参数设置应用于申万一级行业指数,择时策略在 11 个行业指数上取得了 10%以上的年化超额收益,在食品饮料,商贸零售,建筑装饰,及交通运输行业指数上的风险收益比较高,表明了强化学习策略框架应用于不同标的也能实现有效择时,而不仅仅只是在个别指数上过度拟合的结果。 ❑ 风险提示 1. 本报告中包含公开发表的文献整理的模型结果,涉及的收益指标等结果的解释性请参考原始文献。2. 本报告构建的策略框架中所提及的交易均指模拟交易,回测结果是基于历史数据的统计归纳。3. 通过算法构建的模型力求自适应跟踪市场规律和趋势,但仍存失效可能,模型输出结果不作为投资建议,须谨慎使用。 分析师:陈奥林 执业证书号:S1230523040002 chenaolin@stocke.com.cn 相关报告 1 《宏观量化:周期划分与识别》 2023.07.03 2 《市场一周内企稳,看好低拥挤品种投资机会》 2023.07.02 3 《雪球指数定价与组合配置》 2023.06.29 金融工程深度 http://www.stocke.com.cn 2/25 请务必阅读正文之后的免责条款部分 正文目录 1 导读 ................................................................................................................................................................ 4 1.1 AlphaGo 取胜世界围棋冠军,强化学习进入大众视野 ................................................................................................... 4 1.2 市场对于强化学习在投资领域的应用拭目以待 ............................................................................................................... 4 2 从马尔可夫决策过程到强化学习 ................................................................................................................ 5 2.1 建立强化学习的语境 .......................................................................................................................................................... 5 2.2 实现强化学习算法 .............................................................................................................................................................. 5 2.2.1 马尔可夫过程 ........................................................................................................................................................... 6 2.2.2 掌握驱动:累积奖励期望 ....................................................................................................................................... 6 2.2.3 从马尔可夫决策过程到强化学习 ........................................................................................................................... 6 2.3 强化学习常见分类方法 ..........................................................................................
[浙商证券]:金融工程研究报告:量化投资算法前瞻,强化学习,点击即可下载。报告格式为PDF,大小1.27M,页数25页,欢迎下载。



