机器学习系列:数据治理专题,立足数据标准化框架,挖掘基本面量化通用指标

证券研究报告 请务必阅读正文之后第 23 页起的免责条款和声明 立足数据标准化框架,挖掘基本面量化通用指标 机器学习系列——数据治理专题|2022.10.22 ▍ 中信证券研究部 ▍ 核心观点 张若海 数据科技首席 分析师 S1010516090001 伍家豪 数据科技分析师 S1010522090002 从基本面量化的发展历史看,策略创新发展持续围绕着量化模型升级和金融数据挖掘。多模态数据蕴含大量投研信息,但在基本面量化的建模过程中,非标准化数据的治理难度直接阻碍了大量有效指标的构建和应用。近年来数据的积累叠加机器学习的发展,使得处理海量数据并蒸馏提取有效指标成为可能。本文围绕通用指标的挖掘和使用,提供基本面量化研究数据指标构建的新思路。 ▍海量信息伴随数据陷阱,大量原始数据难以直接赋能投研。随着大数据技术蓬勃发展,各类型数据的数量开始呈现爆发式增长。根据 IDC 预测显示,全球数据量将从 2020 年的 64.2ZB 增长到 2025 年的 175ZB。海量数据所产生的信息增量将不断翻新投研应用场景,但由于数据与技术匹配低效、缺乏投研专家知识以及数据质量等问题,其中大部分数据难以直接应用于基本面量化策略。 ▍不同投资应用场景应定义不同数据标准化范式,目标导向牵引底层数据组合应用于投研。随着数据量的爆发式增长,越来越多的数据进入投资领域的应用视野,立足多个类型的数据集群:市场行情数据、财务数据、基本面数据、另类数据、投研流程数据,可以支持行业选股、行业择时、主题或行业轮动等多种投资应用场景。但不同的投资应用可以直接使用的标准化数据在种类、格式、内容、频率、来源等维度均存在较大差异,所以构建数据策略务必具备明确的投资应用场景,以目标导向的模式来牵引底层数据的组合应用与指标的清洗构建。 ▍以中观行业配置场景为例,借助技术支点构建行业级基本面量化指标。中观行业配置需要综合考虑行业基本面、舆情、政策、资金等多个维度信息,因此我们借助机器学习、自然语言处理等数据处理技术,基于政策文本量化、景气度模型构建与行业资金流动性统计三个维度构建了三类有效指标。以中观行业配置应用作为明确的目标场景,保证了指标构建的专业性与投资应用的有效性。从机器辅助数据处理的角度看,我们基于技术手段实现月频的数据集群更新和指标维护,自动化完成全行业底层 400 余个指标的更新与清洗,从时间跨度超过 10 年的海量非结构化文本数据中构建有效指标。 ▍中观行业配置场景中,技术赋能指标库构建的路径:1. 投资指向的数据结构设计:针对行业级月频或季频调仓的场景,制定标准化的指标库结构,形成标准化回测框架,以保证指标的投资有效性;2. 代码助力数据清洗流程标准化:指标构建的过程涉及大量基本面指标或文本的处理,因此可以借助代码形成自动化清洗工具,将维护流程标准化,形成不同层级的数据资产;3. NLP 助力低信息密度数据的指标构建:政策、新闻、研报等数据包含海量的文本数据,面向不同场景利用 NLP 技术可以将文本数据指标化,挖掘其中的统计或语义信息。 ▍数据标准化形成资产,为不同场景引入新数据、新指标、新策略,并具备极高的复用价值。借助自动化工具形成的数据清洗、存储、使用流程,在构建完成后维护成本会大幅降低。在此过程中,针对不同场景形成的原始数据、指标数据、策略方法会以数据库和代码的方式形成标准化、可复用的数据资产。 ▍风险因素:数字化政策落地不及预期;模型依赖的行业逻辑发生变化。 机器学习系列——数据治理专题|2022.10.22 请务必阅读正文之后的免责条款和声明 2 目录 数据量与丰富度快速提升,但难以直接赋能投研 .............................................................. 4 数据爆发趋势难挡,数据质量参差与低价值密度成应用痛点 ............................................ 4 主动与量化投资的互相试探,基本面量化有望实现 1+1>2 ............................................... 4 基本面量化的实现首先面临数据形式的非标准化问题 ....................................................... 5 应用场景定义数据标准化范式,支撑基本面量化落地 ...................................................... 6 因子框架设计务必由投研场景定义 .................................................................................... 6 多维数据集群:愈发丰富的维度筑建数据分析体系 .......................................................... 7 技术手段助力低信息密度数据中的指标构建 ..................................................................... 8 中观视角通用场景技术赋能下的指标库构建路径 .............................................................. 9 面向行业配置应用为例,构建通用场景下的标准化指标库 ............................................... 9 维度 1:政策文本量化——掘金文本信息,构建特色政策指标 ....................................... 10 维度 2:景气度模型——聚合海量基本面指标,提炼景气变化趋势 ................................ 13 维度 3:行业流动性——多维指标对比历史分位,刻画市场交易热点 ............................ 18 标准化数据资产存储与调用 ............................................................................................ 19 原始数据的存储与调用 .................................................................................................... 19 标准化行业中观因子存储与调用 ..................................................................................... 20 行业配置策略构建与结果展示 ......................................................................................... 21

立即下载
金融
2022-11-02
中信证券
24页
2.48M
收藏
分享

[中信证券]:机器学习系列:数据治理专题,立足数据标准化框架,挖掘基本面量化通用指标,点击即可下载。报告格式为PDF,大小2.48M,页数24页,欢迎下载。

本报告共24页,只提供前10页预览,清晰完整版报告请下载后查看,喜欢就下载吧!
立即下载
本报告共24页,只提供前10页预览,清晰完整版报告请下载后查看,喜欢就下载吧!
立即下载
水滴研报所有报告均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。
相关图表
恒生华夏恒生香港上市生物科技交易型开放式指数证券投资基金(QDII)产品信息
金融
2022-11-02
来源:恒生香港上市生物科技指数投资价值分析:反弹开启,恒生医药有望迎来拐点
查看原文
制药产业的政策导向和投资方向
金融
2022-11-02
来源:恒生香港上市生物科技指数投资价值分析:反弹开启,恒生医药有望迎来拐点
查看原文
全国基本医疗保险基金总支出(亿元) 图2:2022年关于医疗卫生财政支出预算及提前发放情
金融
2022-11-02
来源:恒生香港上市生物科技指数投资价值分析:反弹开启,恒生医药有望迎来拐点
查看原文
恒生香港上市生物科技部分成分股估值情况
金融
2022-11-02
来源:恒生香港上市生物科技指数投资价值分析:反弹开启,恒生医药有望迎来拐点
查看原文
阿根廷外债金融不断上升,外汇储备比重持续下降,资不抵债(百万美元,%)
金融
2022-11-02
来源:固收深度报告:全球高通胀的内核正在发生变化
查看原文
主要欧盟国家政府债务占 GDP 的比例(单位:%)
金融
2022-11-02
来源:固收深度报告:全球高通胀的内核正在发生变化
查看原文
回顶部
报告群
公众号
小程序
在线客服
收起