华泰人工智能系列之三十五:WGAN应用于金融时间序列生成
免责声明和披露以及分析师声明是报告的一部分,请务必一起阅读。 1 证券研究报告 金工研究/深度研究 2020年08月28日 林晓明 SAC No. S0570516010001 研究员 SFC No. BPY421 0755-82080134 linxiaoming@htsc.com 陈烨 SAC No. S0570518080004 研究员 SFC No. BPV962 010-56793943 chenye@htsc.com 李子钰 SAC No. S0570519110003 研究员 0755-23987436 liziyu@htsc.com 何康 SAC No. S0570520080004 研究员 021-28972039 hekang@htsc.com 1《金工: 再探 AlphaNet:结构和特征优化》2020.08 2《金工: 基金评价及筛选全流程研究框架》2020.08 3《金工: 黄金大周期下半场保值功能凸显》2020.08 WGAN 应用于金融时间序列生成 华泰人工智能系列之三十五 WGAN 模型可应用于金融资产时间序列生成,效果优于原始 GAN 模型 本文探讨 GAN 模型的一类重要变体——WGAN,并将其运用于金融资产时间序列的生成,发现 WGAN 在生成数据的真实性和多样性上均优于原始GAN。原始 GAN 模型具有训练不同步、训练损失函数不收敛和模式崩溃的缺点。WGAN 模型使用 Wasserstein 距离衡量真实分布与生成分布之间的距离,克服了原始 GAN 模型中 JS 距离的缺陷。使用 GAN 和 WGAN 生成上证综指日频和标普 500 月频收益率序列,结果表明 GAN 无法复现出真实序列的长时程相关等特性,WGAN 则有显著改善,并且 WGAN 在多样性上相比于 GAN 也有一定提升。 W 距离克服了 JS 散度的缺陷,在生成对抗网络中是更合适的距离指标 原始 GAN 模型的主要缺点是判别器 D 和生成器 G 训练不同步、训练损失函数不收敛和模式崩溃。其中训练不同步问题与 JS 散度的梯度消失现象有关;模式崩溃由 KL 散度的不对称性导致;损失函数不收敛由 GAN 本身 D和 G 的博弈导致。W 距离避免了 JS 散度带来的梯度消失现象,故而不用再小心平衡 D 和 G 的训练过程。WGAN 用判别器近似估计真假分布间的W 距离,随着训练的进行,W 距离越来越小,即判别器的损失函数收敛,可以辅助指示训练进程。因此相比于 JS 散度和 KL 散度,W 距离是应用于生成对抗网络里更合适的衡量分布间“距离”的指标。 WGAN 生成序列在“真实性”上相比于 GAN 模型有进一步的提升 数据实证部分围绕 WGAN 与 GAN 模型的对比展开,我们选取上证综指日频和标普 500 月频的对数收益率序列进行生成训练并展示结果。除自相关性、厚尾分布、波动率聚集、杠杆效应、粗细波动率相关、盈亏不对称性这六项指标以外,本文还引入方差比率检验、长时程相关的 Hurst 指数两项指标验证生成序列的真实性。在上证综指日频序列上,GAN 生成序列在Hurst 指标上与真实序列仍有差距,WGAN 则有显著改善;在标普 500 月频数据上,GAN 生成序列在波动率聚集、粗细波动率相关和盈亏不对称性指标上表现不佳,WGAN 也改善明显,更接近真实序列。 WGAN 生成序列在不失真的基础上相比于 GAN 生成序列更加多样 另外我们引入衡量序列相似性的 DTW 指标,评价生成序列的多样性。在上证综指日频序列上,WGAN 生成序列多样性相较于 GAN 有小幅提升;在标普 500 月频数据上,WGAN 生成序列多样性相较于 GAN 有明显提升。我们看到的不再是重复的生成序列,而是观察到了更多的市场可能性。 风险提示:WGAN 生成虚假序列是对市场规律的探索,不构成任何投资建议。WGAN 模型存在黑箱问题,深度学习存在过拟合的可能。深度学习模型是对历史规律的总结,如果市场规律发生变化,模型存在失效的可能。 相关研究 金工研究/深度研究 | 2020 年 08 月 28 日 免责声明和披露以及分析师声明是报告的一部分,请务必一起阅读。 2 正文目录 研究导读 ........................................................................................................................... 5 生成对抗网络 GAN 的缺点 ................................................................................................ 6 GAN 的缺点回顾 ....................................................................................................... 6 GAN 缺点一:G 和 D 训练不同步 ............................................................................. 6 JS 散度的进一步探讨 ........................................................................................ 6 训练生成器梯度消失 .......................................................................................... 7 GAN 缺点二:训练不收敛 ......................................................................................... 8 GAN 缺点三:模式崩溃 ............................................................................................ 8 Non-saturating GAN 中 J(G)的等价表达 ........................................................... 9 模式崩溃的原因 ................................................................................................. 9 Wasserstein GAN 介绍 ................................................................................................... 11 Wasserstein 距离 .........
[华泰证券]:华泰人工智能系列之三十五:WGAN应用于金融时间序列生成,点击即可下载。报告格式为PDF,大小2.25M,页数36页,欢迎下载。
