金融工程专题报告:基于随机森林的多因子选股模型构建-渤海证券
金融工程专题报告 请务必阅读正文之后的声明 渤海证券股份有限公司具备证券投资咨询业务资格 1 of 16 金融工程 研究 证券研究报告 金融工程专题报告 证券分析师 王雪莹 022-23839121 wangxy4430@bhzq.com 核心观点: 多因子模型与随机森林介绍 多因子模型通过选取一组影响资产收益率的因子,并建立因子与收益率之间的数学模型,来解释和预测资产的收益率,应用于复杂多变的金融市场时,常因其对市场关系的线性假设而显得力不从心。随机森林模型无需预设因子与收益间的函数关系,而是通过算法驱动的方式,自动学习和发现数据中隐藏的复杂结构,通过集成大量决策树,能够精准捕捉非线性关系与高阶交互作用。将随机森林等机器学习模型应用于多因子选股,是传统量化投资向“AI 量化”升级的典型路径,能够穿透市场表面的噪音,从高维、非结构化的数据中解构和识别复杂的非线性模式、捕捉转瞬即逝的市场微观结构特征,并构建能够动态适应市场环境变化的自适应模型。 模型构建 模型构建中选取了包含估值因子、成长因子、质量因子、杠杆因子、市值因子、动量反转因子、换手率因子、技术因子等八个类别的 25 个基本面和技术面因子。将 2010.1.4 至 2025.4.30 整个时间段的后 40%作为回测区间,前 60%的数据中,80%作为训练集,剩下 20%作为测试集。选取中证 500 指数成分股作为基准股票池,每 20 个交易日进行一次调仓,每次选择 10 只股票持有,先后进行了特征和标签提取、数据预处理、训练集和测试集的合成、模型训练和模型回测步骤。 结果显示,随机森林模型大幅跑赢了中证 500 指数。从收益指标来看,随机森林模型的总收益率、年化收益率、Sharpe、Calmar 等均高于基准,波动率和最大回撤都低于基准,风险收益比远好于基准,说明经过历史数据的学习,随机森林模型具有更优异的选股能力和更稳定的表现。随机森林模型凭借其强大的非线性建模能力和抗噪性,在多因子选股策略中实现了更优的风险调整后收益,验证了机器学习方法在量化交易中的实用价值。 风险提示:模型基于历史数据构建,存在失效的风险,不构成投资建议。第三方数据不准确的风险。 基于随机森林的多因子选股模型构建 ――金融工程专题报告 分析师:王雪莹 SAC NO:S1150525020001 2025 年 6 月 30 日 金融工程专题报告 请务必阅读正文之后的声明 2 of 16 目 录 1. 多因子模型和随机森林算法介绍 .............................................................. 4 2. 模型构建 ................................................................................. 7 3. 模型回测 ................................................................................ 11 4. 总结 .................................................................................... 13 金融工程专题报告 请务必阅读正文之后的声明 3 of 16 图 目 录 图 1:训练集箱体图 ..................................................................... 9 图 2:测试集箱体图 ..................................................................... 9 图 3:回测集箱体图 .................................................................... 10 图 4:策略表现与基准对比 .............................................................. 11 表 目 录 表 1:多因子模型和随机森林选股模型的对比 ................................................ 5 表 2:参数设置 ......................................................................... 7 表 3:因子列表 ......................................................................... 7 表 4:策略表现与基准对比 .............................................................. 11 金融工程专题报告 请务必阅读正文之后的声明 4 of 16 1. 多因子模型和随机森林算法介绍 多因子模型是现代金融学中用于解释和预测资产收益率的重要工具之一。该模型认为资产的收益率是由多个因子共同决定的,通过多因子模型,可以更全面地了解资产的内在价值,从而更好地进行投资决策。多因子模型通过选取一组影响资产收益率的因子,并建立因子与收益率之间的数学模型,来解释和预测资产的收益率。可以理解为将股票的收益率分解为 k 个因子的线性组合和未被因子解释的残差项。 为股票 i 的预期收益率 为股票 i 对 k 因子的敏感度 为 k 因子的预期收益率 为残差 构建一个传统的多因子模型通常遵循一个清晰、线性的流程:1. 因子挖掘与定义:
金融工程专题报告:基于随机森林的多因子选股模型构建-渤海证券,点击即可下载。报告格式为PDF,大小1.18M,页数16页,欢迎下载。
