金融科技(Fintech)和数据挖掘研究(二):知识图谱的构建与应用
请务必阅读正文之后的信息披露和法律声明 [Table_MainInfo]金融工程研究 证券研究报告 金融工程专题报告 2019 年 04 月 23 日 [Table_Title]相关研究 [Table_ReportInfo] 《选股因子系列研究(四十六)——日内分时成交中的玄机》2019.04.16 《量化研究新思维(十六)——他山之石:防御性因子择时》2019.04.14 《ESG 与社会责任投资系列研究(二)——ESG 评级在因子组合构建中的应用》2019.04.14 [Table_AuthorInfo]分析师:冯佳睿 Tel:(021)23219732 Email:fengjr@htsec.com 证书:S0850512080006 分析师:余浩淼 Tel:(021)23219883 Email:yhm9591@htsec.com 证书:S0850516050004 联系人:梁镇 Tel:(021)23219449 Email:lz11936@htsec.com 联系人:张振岗 Tel:(021)23154386 Email:zzg11641@htsec.com 金融科技(Fintech)和数据挖掘研究(二)——知识图谱的构建与应用 [Table_Summary]投资要点: 知识图谱的介绍。知识图谱的概念最早于 2012 年由谷歌提出,是一种直观显示各个实体关联信息的有效数据结构,旨在描述真实世界中存在的各种实体或概念及其关系。它脱胎于“语义网络”,随着网络和计算机技术的发展而逐渐演变。目前,知识图谱一词已经成为知识应用领域的一个通用词汇,不仅仅局限于谷歌搜索引擎的知识库及服务功能,而成为了人工智能领域炙手可热的概念。 知识图谱的构建与应用技术。构建知识图谱的本质是一个从数据采集,数据建模到数据存储的过程。(1)通过结构化数据库、爬虫等方式获取知识图谱原始数据;(2)对数据进行预处理。其中,文本数据往往需要借助自然语言处理技术;(3)提取数据中的实体和关系。其中,不同来源的知识需要进行知识融合;(4)构建三元组;(5)存储三元组信息。可以采用关系数据库和 Neo4j 等图数据库;(6)使用知识图谱。 知识图谱在金融投资领域的应用。通过知识图谱,我们可以进行产业链的挖掘,建立更为全面深入的事件驱动投资策略,构建知识图谱类因子,改善现有分析框架等。 产业链挖掘。通过对比产业链的产品和服务网络中的“实体”与上市公司主营业务产品网络中的“实体”,并将相同的“实体”进行链接,即可确认不同公司在产业链中的具体位臵。此外,知识图谱也可以根据不同的关系得到不同的网络信息,例如,股权网络挖掘、供应链挖掘、热点主题挖掘等。 事件驱动策略。以业绩预警事件在应收账款网络中的传播为例,除了直接发生业绩预警事件的上市公司外,这些公司的主要应收账款债权人也受到相同方向的冲击,但影响幅度会有所减弱且具有一定的滞后性。类似地,其他事件也可能存在这种传递效应,例如,大股东重大负面信息(例如,偷税漏税)在股权网络中的传播、主营业务产品产量大幅减少在供应链网络中的传播等。 知识图谱类因子。可以采用供应链、股权等数据构建图网络相关因子,包括:下游企业的业绩、上游企业的基本面、关联公司的数量和分散度、企业在图网络中的重要性、中心性等因子。由于这类因子包含关联结构,能够提供额外的信息,因而与传统因子的相关性通常较低。 对现有分析框架的改进。以行业基本面量化为例,知识图谱标准化了不同品种/行业的分析和研究框架,由此带来的改进主要体现在以下三点。(1)可以对知识图谱中的任一节点进行预测和分析。例如,要研究铝的库存情况,只需选取与库存有关联关系的所有节点作为初始变量集;(2)将知识图谱中的结构信息带入量化模型中。例如,采用主成分分析降维,可以对每个包含关系下的分项变化汇总为一个主成分等。(3)可以在传统量化模型的基础上叠加行业观点。 风险提示。数据挖掘是从历史先验数据获取经验模型的方法,存在模型失效可能。 20491204/36139/20190424 16:08 金融工程研究 金融工程专题报告 2 请务必阅读正文之后的信息披露和法律声明 目 录 1. 知识图谱的介绍 ......................................................................................................... 5 1.1 什么是知识图谱? ........................................................................................... 5 1.2 知识图谱的发展历史 ........................................................................................ 6 1.2.1 知识图谱的前世 ..................................................................................... 6 1.2.2 知识图谱的今生 ..................................................................................... 7 2. 知识图谱的构建与应用技术 ....................................................................................... 9 2.1 知识图谱的原始数据 ...................................................................................... 10 2.2 知识图谱数据的预处理 .................................................................................. 10 2.3 实体、关系的提取 ......................................................................................... 11 2.4 三元组的构建 ................................................................................................. 11 2.5 存储三元组信息 ............................................................................................. 12 2.6 知识图谱的使用 ..............
[海通证券]:金融科技(Fintech)和数据挖掘研究(二):知识图谱的构建与应用,点击即可下载。报告格式为PDF,大小5.06M,页数25页,欢迎下载。



