机器学习系列_数据治理专题(六):集聚投资有效性,构建DATALET数据资产

证券研究报告 请务必阅读正文之后第 20 页起的免责条款和声明 集聚投资有效性,构建 DATALET 数据资产 机器学习系列——数据治理专题(六)|2023.8.16 ▍ 中信证券研究部 ▍ 核心观点 张若海 数据科技首席 分析师 S1010516090001 伍家豪 数据科技分析师 S1010522090002 基于大模型的情感识别与自动化标注能力,面向全 A 行业与个股跟踪,我们构建了 DATALET/数据堆叠产品,实现了文本数据、价量数据在同一时间序列条件下,统一指标化与投资指向化创新。在低/高频场景,基于海量文本与行业基本面指标,可提供定制化的配置策略与数据产品。从投资回测角度来看,基于情绪类指标构建的行业轮动与垂直个股配置策略超额收益显著,有效性强。 ▍ 上市公司持续扩容叠加板块轮动加速推动数据产品创新性需求。注册制试点启动以来,A 股上市公司数量增至 5000 余家,同时板块轮动持续加速。为在此背景下把握住投资机遇,投研时对数据库产品的信息维度丰富化及自动化标注能力的要求日益增长。另外由于如研报、政策等文本化数据数量呈现爆发性增长,对此类文本化数据的结构化需求也与日俱增。 ▍ DATALET 实现文本数据指标化及指标标签投资指向化双重创新。为迎合市场投研需求,我们结合大模型对数据库的指标及标签维度进行了充分延展,实现了文本数据、价量数据在同一时间序列条件下,统一指标化与投资指向化创新,构建了 DATALET 数据产品。DATALET 不仅挖掘了指标中蕴含的投资指向,同时高精度,面向三级行业/个股,扩充了投研视角。 ▍ 大模型涌现能力助力自动化标注,提升指标投资指向性。基于大模型循环Prompt 所提供的涌现能力,我们实现了指标标签体系的自动化扩容。DATALET 中数据共有 14 个标签,其中包含 7 个投研辅助类标签及 7 个投资指向性标签。标签体系中涉及了指标对应产业链环节、指标对相应环节下游成本影响程度打分等多维投资指向性创新标签。 ▍ 文本数据指标化,扩充投研视角。随着信息化的发展,很多影响市场的信息最先以研究报告、政策等文本形式进行传播,其中蕴含了增量 Alpha。考虑数据安全和可及性,我们选择百度文心 ERNIE 3.0 Tiny 预训练模型并下载;使用雪球和 Wind 有情感标注的金融舆情文本微调模型;将微调后的模型在无标注的财经新闻、分析师研报摘要以及公司公告上提取信息并预测情感。在垂直场景,我们利用预训练大模型将文本类数据进行指标化,在形成情绪打分的同时将其对标到行业或个股,从而构建情绪类指标。情绪类指标体系中涉及研报热度、政策推进力度及电话会议情绪等多重指标。 ▍ 指标投资有效性探索:情绪类指标具有较强的投资指导性。基于情绪类指标,我们结合其经济意义构建相应的投资策略。基于政策推进力度指标,我们构建了行业轮动策略,对每月政策得分 TOP3 行业进行等权配置,其年化超额收益率可以达到 9%。另外基于研报情绪指标,我们构建了行业维度的择时策略及单一行业内的选股策略。在行业维度的择时策略中钢铁、消费者服务及基础化工等周期性行业超额收益领先,均超过 20%。另外基于研报热度构建的锂电行业 TOP3 定期选股策略较中信锂电池行业指数年化超额收益率达 20%。 ▍ 风险因素:底层数据产品可持续性不及预期;底层数据准确性不及预期;投资机构数字化不及预期;大模型技术发展与应用不及预期;科技领域与数据确权监管趋严。 机器学习系列——数据治理专题(六)|2023.8.16 请务必阅读正文之后的免责条款和声明 2 目录 围绕市场需求,DATALET 释放数据应用潜能 .................................................................. 4 上市公司持续扩容,数据广度及精度要求提升.................................................................. 4 板块轮动加速,自动化标注能力提升投研效率.................................................................. 4 大模型扩宽指标维度,实现文本数据结构化及高频追踪 ................................................... 5 DATALET 实现文本数据指标化及指标标签投资指向化双重创新 ...................................... 6 涌现能力助力自动化标注,挖掘指标投资指向 ................................................................. 7 循环具象 Prompt 设计助力标注能力自动化及专业化 ........................................................ 7 创新及丰富指标逻辑体系,实现投资指向性标注 .............................................................. 7 大模型赋能文本数据指标化,扩充投研观测视角 .............................................................. 9 通过自动化文本数据指标化,洞察市场情绪变化 .............................................................. 9 融合研报、电话会议及政策,构建多维情绪指标体系 ..................................................... 10 情绪类指标构建示例:研报情绪指标与政策推进力度指标 ............................................. 10 聚焦指标特性,探索指标投资有效性 .............................................................................. 12 政策推进力度指标:可及时把握行业轮动变化................................................................ 12 研报热度指标:在行业及个股维度均可较好判断股价走势 ............................................. 14 风险因素 ......................................................................................................................... 16 oPvMtRoOxOmPqOoQsNsRsN9PdNaQmOmMtRtQiNpPuMlOnMsNaQnMtPwMmRnMwMm

立即下载
金融
2023-08-28
中信证券
21页
1.54M
收藏
分享

[中信证券]:机器学习系列_数据治理专题(六):集聚投资有效性,构建DATALET数据资产,点击即可下载。报告格式为PDF,大小1.54M,页数21页,欢迎下载。

本报告共21页,只提供前10页预览,清晰完整版报告请下载后查看,喜欢就下载吧!
立即下载
本报告共21页,只提供前10页预览,清晰完整版报告请下载后查看,喜欢就下载吧!
立即下载
水滴研报所有报告均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。
相关图表
中债城投债收益率曲线 AAA 图表44:中债城投债收益率曲线 AA+
金融
2023-08-28
来源:固收专题分析报告:银行二永债投资三部曲
查看原文
中债中短期票据收益率曲线 AAA 图表42:中债中短期票据收益率曲线 AA+
金融
2023-08-28
来源:固收专题分析报告:银行二永债投资三部曲
查看原文
中票信用利差 图表40:中票信用利差周度变动
金融
2023-08-28
来源:固收专题分析报告:银行二永债投资三部曲
查看原文
中票收益率 图表38:中票收益率周度变动
金融
2023-08-28
来源:固收专题分析报告:银行二永债投资三部曲
查看原文
同业存单发行量和净融资额
金融
2023-08-28
来源:固收专题分析报告:银行二永债投资三部曲
查看原文
债券取消或推迟发行统计
金融
2023-08-28
来源:固收专题分析报告:银行二永债投资三部曲
查看原文
回顶部
报告群
公众号
小程序
在线客服
收起