金工深度研究,LLM-FADT:大模型增强文本选股

免责声明和披露以及分析师声明是报告的一部分,请务必一起阅读。 1 金工 LLM-FADT:大模型增强文本选股 华泰研究 研究员 林晓明 SAC No. S0570516010001 SFC No. BPY421 linxiaoming@htsc.com +(86) 755 8208 0134 研究员 何康,PhD SAC No. S0570520080004 SFC No. BRB318 hekang@htsc.com +(86) 21 2897 2202 联系人 沈洋 SAC No. S0570123070271 shenyang023029@htsc.com +(86) 21 2897 2228 多头等权组合 LLM 增强前后超额对比 注:回测区间:2017-01-26 至 2025-05-30;交易费率双边 3‰;基准指数为中证 500 资料来源:Wind,朝阳永续,通义千问,华泰研究 因子增强组合 LLM 增强前后超额对比 注:回测区间:2017-01-26 至 2025-05-30;交易费率双边 3‰;基准指数为中证 500;组合全称为因子增强 Top25组合 资料来源:Wind,朝阳永续,通义千问,华泰研究 2025 年 6 月 10 日│中国内地 深度研究 人工智能 92:大模型增强下的文本选股策略 LLM-FADT 本文在前期报告《人工智能 63:再探文本 FADT 选股》(20221028)的基础上,基于开源大模型 Qwen3-8b 增强 BERT-FADT 策略,构建效果更为稳定的 LLM-FADT 策略。对于多头等权组合和因子增强 Top25 组合,LLM增强后的策略效果显著优于增强前。与此同时,基于 LLM-FADT 策略,本文对基于少量成分内股票的沪深 300 指增组合以及医药行业增强组合进行探索,构建的 LLM-FADT Top25 沪深 300 指增组合年化超额收益率为12.16%,LLM-FADT 医药行业增强组合年化超额收益率为 18.53%(回测区间均为 20170126-20250530)。 大模型的文本“博观”视角:大模型对原始文本推理演绎形成增量信息 传统的文本分析往往仅基于原始文本及其固有特征,例如文本可读性、文本复杂度、文本情绪、文本相似性等。而人类作为文本信息的常规受众,对文本分析的基础行为之一是进行个性化的推理演绎,以获取文本中隐含的重要信息,然而这一基本行为却难以被机器模拟。大语言模型或是难得的解决之道,本文利用 Qwen3-8b 模型对原始分析师文本进行多角度重构,包括标题新解、行情催化剂、“言外之意”、潜在风险、收益指引,以模拟人类阅读文本时的推理演绎过程,构建额外的增量信息。 大模型文本因子:LLM 重构原始文本或将带来额外增量信息 本文对大模型文本因子进行逐一对比测试。在因子分层回测方面,分 10层测试的情况下,行情催化剂文本分层 1 绝对收益与超额收益均领先于其余文本,“言外之意”文本分层 10 则均低于其余文本。在组合回测方面,对各文本因子分层 1 构建等权组合,行情催化剂文本自 2023 年起持续跑赢其他文本,潜在风险文本则稳定逊色于其他文本。与此同时,行情催化剂与潜在风险文本与原始文本相关性总体较低,二者相比于原始文本可能具备独特的增量信息。 LLM-FADT 组合:多项业绩指标均表现出色,LLM 增强后>LLM 增强前 本文尝试对不同大模型文本因子进行合成,包括“先合成后训练”与“先训练后合成”两种方案,也即先对文本特征向量取均值还是对训练得到的因子取均值之分。测试结果显示“先训练后合成”方案更优。据此可构建 LLM-FADT因子增强 Top25 组合,该组合相对于中证 500 基准,年化超额收益率为27.60%,信息比率为 2.21,相对基准月胜率为 74.26%。基于“先训练后合成”方案,无论是多头等权组合(因子分 10 层首层等权)还是因子增强组合(多头等权+额外因子增强),LLM 增强后的组合业绩显著优于增强前。 应用案例:沪深 300 少成分股增强组合与医药行业增强组合 对于投资管理人而言,基于少量成分内股票构建指数组合、构建特定行业增强组合皆为常见需求。本文通过修改模型训练标签,定制化构建 LLM-FADT Top25 沪深 300 增强组合和 LLM-FADT 医药行业增强组合,前者年化收益率为 13.65%,年化超额收益率为 12.16%,相对基准月胜率为 59%,后者年化超额收益率为 18.53%,年化跟踪误差为 12.22%,相对基准月胜率为69.00%,年化双边换手率为 3.34。 风险提示:大模型是海量数据训练获得的产物,输出准确性可能存在风险; 不同大模型效果存在差异,需谨慎选择;非本地大模型处理敏感数据或有信息泄露风险;通过机器学习模型构建选股策略是历史经验的总结,存在失效的可能。人工智能模型可解释程度较低,使用须谨慎。 0.00.51.01.52.02.53.03.52017-012017-072018-012018-072019-012019-072020-012020-072021-012021-072022-012022-072023-012023-072024-012024-072025-01累计超额收益-LLM增强前累计超额收益-LLM增强后012345672017-012017-072018-012018-072019-012019-072020-012020-072021-012021-072022-012022-072023-012023-072024-012024-072025-01累计超额收益-LLM增强前累计超额收益-LLM增强后000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000 免责声明和披露以及分析师声明是报告的一部分,请务必一起阅读。 2 金工研究 正文目录 研究导读 ....................................................................................................................................................................... 3 基于大模型的文本信息提取 .......................................................................................................................................... 5 LLM-FAD

立即下载
综合
2025-06-17
华泰证券
20页
2.95M
收藏
分享

[华泰证券]:金工深度研究,LLM-FADT:大模型增强文本选股,点击即可下载。报告格式为PDF,大小2.95M,页数20页,欢迎下载。

本报告共20页,只提供前10页预览,清晰完整版报告请下载后查看,喜欢就下载吧!
立即下载
本报告共20页,只提供前10页预览,清晰完整版报告请下载后查看,喜欢就下载吧!
立即下载
水滴研报所有报告均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。
相关图表
分红流程的预测
综合
2025-06-17
来源:分红对期指的影响
查看原文
未来分红对中证 1000 期货价格的剩余影响(指数点)
综合
2025-06-17
来源:分红对期指的影响
查看原文
未来分红对中证 500 期货价格的剩余影响(指数点)
综合
2025-06-17
来源:分红对期指的影响
查看原文
未来分红对沪深 300 期货价格的剩余影响(指数点)
综合
2025-06-17
来源:分红对期指的影响
查看原文
未来分红对上证 50 期货价格的剩余影响(指数点)
综合
2025-06-17
来源:分红对期指的影响
查看原文
中证 1000 股指期货含分红价差
综合
2025-06-17
来源:分红对期指的影响
查看原文
回顶部
报告群
公众号
小程序
在线客服
收起