金工深度研究:NLP综述,勾勒AI语义理解的轨迹
免责声明和披露以及分析师声明是报告的一部分,请务必一起阅读。 1 证券研究报告 金工 NLP 综述:勾勒 AI 语义理解的轨迹 华泰研究 研究员 林晓明 SAC No. S0570516010001 SFC No. BPY421 linxiaoming@htsc.com +(86) 755 8208 0134 研究员 李子钰 SAC No. S0570519110003 SFC No. BRV743 liziyu@htsc.com +(86) 755 2398 7436 研究员 何康,PhD SAC No. S0570520080004 SFC No. BRB318 hekang@htsc.com +(86) 21 2897 2039 联系人 陈伟 SAC No. S0570121070169 chenwei018440@htsc.com +(86) 21 2897 2228 2022 年 10 月 27 日│中国内地 深度研究 人工智能 62:NLP 发展综述,勾勒 AI 语义理解的轨迹 本文是华泰金工人工智能系列文本挖掘主题下的理论介绍篇,重点对 NLP发展历史上各阶段的代表模型进行理论介绍。近年来金融文本类数据的结构化程度越来越高,这一印象中的“另类数据”已不再另类,想要更充分的利用这类数据的 alpha,势必要求投资者对文本挖掘技术有更全面的理解。基于此,本文对 NLP 发展历史进行综述,帮助读者勾勒 NLP 的发展轨迹,以更好地识别契合量化交易需求的模型,达到知己知彼的效果。 将 NLP 历史划分为三阶段,从统计语言模型到预训练语言模型 可以将 NLP 发展历史划分为三阶段,各阶段呈现出较为鲜明的特点。第一阶段以统计语言模型为主,各类词语&句子的表征方法层出不穷,没有哪种模型占据绝对优势;第二阶段以 Word2Vec 类的词向量模型为主,Word Embedding 技术大行其道,迁移学习的思想崭露头角;第三阶段预训练语言模型逐渐成熟,迁移学习的思想发挥到极致,BERT 等模型站在前人的肩膀上大放异彩,NLP 进入崭新的时代。 第一阶段以传统统计语言模型为主,神经网络语言模型锋芒初露 我们主要介绍了该阶段的两个模型,分别为 N-gram 和 NNLM。N-gram 是为了估计一段自然语言文本出现概率的大小而提出的模型,按链式法则将句子拆解为词语出现的条件概率,以较为简单的想法实现了较好的效果,但存在无法建模更长的上下文语义以及无法建模词语间相似性的缺点。NNLM 则首次将深度学习的思想引入语言模型中,不仅可以对更长的文本进行建模,而且产生了“词向量”这一副产物,影响深远。 第二阶段以 Word2Vec 为代表,word embedding 方法成为标配 Word2Vec 包括 CBOW 和 Skip-gram 两组模型,任务分别为根据上下文预测中心词以及根据中心词来预测上下文,相比于第一阶段的 NNLM 简化了网络结构,同时使用了 Hierarchical Softmax 和 Negative Sampling 两种方法提高训练效率,使得大规模语料训练成为了现实。更重要的是,模型得到的词向量能够在语义上有非常好的表现。WordVec 之后一大批 word embedding 方法相继涌现,从不同的角度对词编码、句子&段落编码进行改进,word embedding 成为 NLP 研究的标配,迁移学习思想逐渐明朗。 第三阶段预训练语言模型大行其道,在巨人的肩膀上 BERT 模型诞生 ELMo、GPT 及 BERT 模型是第三阶段预训练语言模型的代表。ELMo 的特点是可以根据上下文动态地生成词向量,具有学习不同语境下词汇多义性的能力,且使用双向语言模型使得特征的提取更为准确。GPT 则首次将Transformer 应用于语言模型,并且设计了一套高效的训练策略,证明了Transformer 在 NLP 领域具有超强的能力和潜力。BERT 模型集前人模型之大成,利用 Transformer 实现了真正意义上的双向语义理解,并在预训练阶段使用 MLM 和 NSP 两个任务实现语义的更深层次理解,完善和扩展了 GPT中设计的通用任务框架。 风险提示:通过机器学习模型构建选股策略是历史经验的总结,存在失效的可能。人工智能模型可解释程度较低,使用须谨慎。 免责声明和披露以及分析师声明是报告的一部分,请务必一起阅读。 2 金工研究 正文目录 研究导读 ....................................................................................................................................................................... 4 第一阶段:传统统计语言模型 ...................................................................................................................................... 6 N-gram .................................................................................................................................................................. 6 NNLM:神经网络语言模型 ................................................................................................................................... 7 词向量 ........................................................................................................................................................... 7 NNLM 原理:三层全连接网络 ....................................................................................................................... 8 NNLM 之后及 Word2Vec 之前 .............................................................................................................
[华泰证券]:金工深度研究:NLP综述,勾勒AI语义理解的轨迹,点击即可下载。报告格式为PDF,大小3.2M,页数54页,欢迎下载。
