机器学习系列报告之三:超越AlphaGo,自我学习规则的MuZero有何突破?

1 权益量化研究 权益量化研究 证券研究报告 2021 年 09 月 22 日 超越 AlphaGo,自我学习规则的MuZero 有何突破? ——机器学习系列报告之三 相关研究 《量化投资新起点——机器学习系列报告之一》2020 年 9 月 1 日 《机器学习合成非线性因子,增强效果如何?——机器学习系列报告之二》2021 年 3 月 12 日 证券分析师 于光希 A0230520060002 yugx@swsresearch.com 邓虎 A0230520070003 denghu@swsresearch.com 联系人 于光希 (8621)23297818×转 yugx@swsresearch.com 本期投资提示: ⚫ MuZero 自我学习规则,降低了对环境信息的依赖,具有更强的泛化能力。2020 年底,DeepMind 提出 MuZero。MuZero 取得的一项突破进展是可以对规则进行自我学习,降低了对环境信息的依赖。在之前的几个版本中,应用场景主要还是棋类游戏。而 MuZero在 Atari 游戏中,也可以取得很好的效果。 ⚫ AlphaGo 成功地将深度神经网络、强化学习以及蒙特卡洛树搜索结合到了一起,通过深度神经网络和强化学习来指导蒙特卡洛树搜索。在训练过程中,基于监督学习方法学习策略网络的参数,再使用强化学习中的策略梯度方法进行优化。在对弈过程中,AlphaGo 基于大量自我对弈棋局,对策略进行评估,得到新的价值网络。 ⚫ 深度卷积神经网络是 AlphaGo 中使用的重要技术之一。卷积神经网络通过引入卷积层和池化层,将原始图像转换为一系列特征图,学习数据特征。早在 2014 年,DeepMind 和Google Brain 就将下棋当成一个图像识别问题,尝试使用深度卷积神经网络,直接表示和学习围棋对弈的知识。通过监督学习训练出的 12 层卷积神经网络,可以达到业余 6 段左右的水平,但距离人类顶尖棋手差距还较大。 ⚫ 强化学习是一类特殊的机器学习算法,强化学习研究的是个体如何基于环境而行动,以取得最大化的预期奖励。无模型强化学习直接从与环境的交互中学习价值函数,在这种情况下,深度学习强大的函数逼近能力自然成为首选。深度强化学习将深度学习的感知能力和强化学习的决策能力相结合,用强化学习定义问题和优化目标,用深度学习进行建模。借助深度学习中的神经网络,拟合强化学习中的价值函数和策略函数。 ⚫ 蒙特卡洛树搜索是一种经典的启发式搜索算法,以极大极小树搜索算法为基础。在极大极小树搜索中,每次轮到黑棋走时,选择对黑棋最有利的;轮到白棋走时,选择对白棋最有利的。蒙特卡洛树搜索是一个由底向上的过程:搜索树先画到可以承受的深度,然后逐层往上取最大值或最小值回溯,可以通过 Alpha-Beta 剪枝缩减搜索树的大小。 ⚫ MuZero 与之前的版本相比,核心技术仍然是强化学习、深度神经网络和蒙特卡洛树搜索。不同的是,MuZero 由 3 个神经网络组成:编码器、生成器和预测器。MuZero 接收观测值作为输入,并将其转换为隐藏状态,通过一个接收之前隐藏状态和动作的循环进程迭代地更新隐藏状态。在每一步中,模型都会产生一个策略、价值函数和即时奖励的预测。 ⚫ MuZero 在深度神经网络和 MCTS 的运行过程中,没有使用规则。在 AlphaGo Zero 和AlphaZero 中,使用一个模拟器模拟环境的动态(如游戏规则),学习搜索树中的状态转换、搜索树中每个节点的动作、搜索树中的终止情形。而 MuZero 不再需要模拟器,从数据中学习得到一个动态函数。在该模型下,树中的每个节点可以通过相应的隐藏状态表示,通过向模型提供一个隐藏状态和一个动作,算法可以生成一个新的隐藏状态。 ⚫ 风险提示:模型根据历史数据构建,历史表现不代表未来,市场环境发生重大变化时可能失效。 请务必仔细阅读正文之后的各项信息披露与声明 2 权益量化研究 请务必仔细阅读正文之后的各项信息披露与声明 第2页 共22页 简单金融 成就梦想 1. 强化学习:交互式的学习方法 ....................................... 4 1.1 机器学习的重要分类 ................................................................................ 4 1.2 基本要素 ..................................................................................................... 5 1.3 两大特点 ..................................................................................................... 6 1.4 马尔可夫决策过程 .................................................................................... 6 1.5 贝尔曼方程 ................................................................................................. 7 1.6 策略迭代 vs 价值迭代 .............................................................................. 8 2. AlphaGo:深度学习、强化学习、蒙特卡洛搜索树的完美结合 ................................................................................. 11 2.1 AlphaGo 强在哪里? ............................................................................ 11 2.2 卷积神经网络 .......................................................................................... 12 2.3 深度强化学习 .......................................................................................... 15 2.4 蒙特卡洛树搜索 ..................................................................................... 17 3. MuZero:超越 AlphaGo,自我学习规则 .............

立即下载
金融
2021-10-08
申万宏源
22页
1.81M
收藏
分享

[申万宏源]:机器学习系列报告之三:超越AlphaGo,自我学习规则的MuZero有何突破?,点击即可下载。报告格式为PDF,大小1.81M,页数22页,欢迎下载。

本报告共22页,只提供前10页预览,清晰完整版报告请下载后查看,喜欢就下载吧!
立即下载
本报告共22页,只提供前10页预览,清晰完整版报告请下载后查看,喜欢就下载吧!
立即下载
水滴研报所有报告均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。
相关图表
龙头股 PEG 估值水平
金融
2021-10-08
来源:估值与基金重仓股配置监控半月报
查看原文
龙头股 PE 估值水平
金融
2021-10-08
来源:估值与基金重仓股配置监控半月报
查看原文
基金前十大重仓股在各行业的配置比例
金融
2021-10-08
来源:估值与基金重仓股配置监控半月报
查看原文
行业股息率水平
金融
2021-10-08
来源:估值与基金重仓股配置监控半月报
查看原文
行业 PB 估值水平
金融
2021-10-08
来源:估值与基金重仓股配置监控半月报
查看原文
行业 PEG 估值水平
金融
2021-10-08
来源:估值与基金重仓股配置监控半月报
查看原文
回顶部
报告群
公众号
小程序
在线客服
收起