金融工程研究报告:基于随机森林算法的信用风险识别模型

请务必阅读正文后的声明及说明 [Table_Info1] 证券研究报告 [Table_Date] 发布时间:2024-08-23 [Table_Invest] 信用增强前现 信用增强后前 年化超额 5.64% 6.71% 年化波动 3.83% 3.89% 信息比率 1.47 1.72 [Table_Report] 相关报告 《沪深 300 好大高正,华安增强严快稳省》 --20240819 《ROE 和 CFO 效率因子》 --20240816 《红利指数的投资价值分析》 --20240811 《上月波动率、规模、价值因子表现较优》 --20240803 《主动权益基金规模变化拆解和市场判断》 --20240731 [Table_Author] 证券分析师:王琦 执业证书编号:S0550521100001 021-61002390 wangqi_5636@nesc.cn 研究助理:江雨航 执业证书编号:S0550123070023 15822355669 jiangyh1@nesc.cn [Table_Title] 证券研究报告 /金融工程研究报告 基于随机森林算法的信用风险识别模型 报告摘要: [Table_Summary] 2015-2024 年,信用债违约大致经历了初步显现、集中爆发和缓和趋稳的三个阶段。2015-2017 年,逐步出现违约事件,但数量较少。2018 年进入爆发期,最高峰 2019 年违约主体数量达到 212 家,违约金额 1226.48亿元。2022 年后形势转好,违约主体数和金额均大幅下降,但在监管趋严的背景下,今年以来违约金额小幅同比提升,截至 2024/08/15,共 20家发行主体违约,涉及债券数量 47 只,违约金额 374.44 亿元。 传统的债券违约模型包括被广泛应用的 Altman Z-score,通过计算财务比率加权得到风险评分,以及基于期权定价理论设计的 Merton 模型,将企业违约定义为企业资产价值小于债务账面价值,使用 Black-Scholes 公式对企业股票和负债进行估值,并推算违约概率。近年来,由于机器学习对变量形式限制较少且具有筛选能力,兼顾样本内拟合优度和样本外预测能力,适用于二分类的监督学习算法被逐渐应用于债券市场。 基于 Logistic 回归和随机森林算法,以上市公司信用债违约和信用评级下调事件作为样本,选取能够直观反映企业资本结构及运营情况的各项财务指标、交易性退市规定相关的股票量价信息(累计成交量、平均收盘价、累计收益等)以及债券性质相关的指标(债券余额、票面利率、剩余期限、最新主体评级)作为特征,以每年三个业绩期为周期,采用欠采样技术平衡训练集,通过交叉验证确定最优参数,搭建和训练信用风险识别模型。 综合评估,随机森林模型表现更优。Logistic 回归拥有更高的 AUC,但召回率仅有0.55,随机森林虽然AUC稍低,但召回率达到0.86,即Logistic回归区分样本能力相对较强,但存在较多漏检(FN)的情况,鉴于信用风险识别模型的目的为进行风险预警,秉持着“宁可信其有不可信其无”的原则,召回率更高的随机森林模型是优选。 利用信用模型识别出具有信用事件风险的信用债/主体,及时进行排雷,可一定程度上增强组合表现,规避信用暴雷的影响。以可转债为例,在2022 半年报后的每个业绩期,使用随机森林信用风险识别模型对下一期前可能产生信用事件的转债进行排除处理,回测结果显示今年以来低波因子和估值因子多头表现显著改善,超额相对提升,收益波动降低,最大回撤收窄,全区间表现也得到优化。 风险提示:以上结果基于数学模型与历史数据,存在模型失效的可能性。 请务必阅读正文后的声明及说明 2 / 30 [Table_PageTop] 金融工程研究 目 录 1. 信用风险事件 ...................................................................................................... 4 1.1. 违约事件统计 ........................................................................................................................... 4 1.2. 信用评级下调事件统计 ........................................................................................................... 6 2. 分类模型概述 ...................................................................................................... 8 2.1. 逻辑回归(Logistic Regression) ........................................................................................... 8 2.2. 随机森林(Random Forest) ................................................................................................... 9 2.3. 极端梯度提升(XGBoost) .................................................................................................. 10 3. 信用风险识别模型 ............................................................................................ 10 3.1. 模型搭建准备 ......................................................................................................................... 10 3.1.1. 特征的选取 ................................................................................................................................................. 10 3.1.2. 不平衡样本数据的处理....................................

立即下载
金融
2024-09-02
东北证券
30页
1.86M
收藏
分享

[东北证券]:金融工程研究报告:基于随机森林算法的信用风险识别模型,点击即可下载。报告格式为PDF,大小1.86M,页数30页,欢迎下载。

本报告共30页,只提供前10页预览,清晰完整版报告请下载后查看,喜欢就下载吧!
立即下载
本报告共30页,只提供前10页预览,清晰完整版报告请下载后查看,喜欢就下载吧!
立即下载
水滴研报所有报告均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。
相关图表
农商行净利润增速预测(2024E) 图 31:农商行营收增速预测(2024E)
金融
2024-09-02
来源:银行业投资观察:失效的M1
查看原文
城商行净利润增速预测(2024E) 图 29:城商行营收增速预测(2024E)
金融
2024-09-02
来源:银行业投资观察:失效的M1
查看原文
股份行净利润增速预测(2024E) 图 27:股份行营收增速预测(2024E)
金融
2024-09-02
来源:银行业投资观察:失效的M1
查看原文
国有大行净利润增速预测(2024E) 图 25:国有大行营收增速预测(2024E)
金融
2024-09-02
来源:银行业投资观察:失效的M1
查看原文
A股上市银行净利润增速预测跟踪(2024E)
金融
2024-09-02
来源:银行业投资观察:失效的M1
查看原文
银行转债价位估值一览(截至2024年8月23日)
金融
2024-09-02
来源:银行业投资观察:失效的M1
查看原文
回顶部
报告群
公众号
小程序
在线客服
收起