计算机行业动态点评:从BloombergGPT看金融GPT机遇
免责声明和披露以及分析师声明是报告的一部分,请务必一起阅读。 1 证券研究报告 计算机 从 BloombergGPT 看金融 GPT 机遇 华泰研究 计算机 增持 (维持) 研究员 谢春生 SAC No. S0570519080006 SFC No. BQZ938 xiechunsheng@htsc.com +(86) 21 2987 2036 行业走势图 资料来源:Wind,华泰研究 2023 年 4 月 02 日│中国内地 动态点评 BloombergGPT:推动金融 GPT 产业机遇 2023 年 3 月 30 日,Bloomberg 发布专为金融领域打造的大语言模型(Large Language Model,LLM)BloombergGPT,实现了 LLM 在金融垂直场景的加速落地,国内相关公司包括同花顺、恒生电子、东方财富等企业。从测试结果来看,BloombergGPT 在保证 LLM 通用性能的基础上,更加聚焦金融场景,有效实现了 LLM 与金融垂直领域知识的深度融合。BloombergGPT 的成功,佐证了“开源模型+高质量垂直数据”LLM 搭建思路的有效性,金融GPT 率先在证券场景落地,同时建议关注后续 GPT 在银行领域的业务机会。 模型拆解:核心突破在于构建金融训练数据集 根据论文《BloombergGPT: A Large Language Model for Finance》介绍,BloombergGPT 同样基于典型的 Transformer 架构,与 OpenAI GPT 模型相同,采用了仅有解码器(decoder-only)的技术路径。对比来看,BloombergGPT 的模型参数为 500 亿,介于 GPT-2(1.5 亿)与 GPT-3(1,750亿)之间。不同的是, Bloomberg 为强化 LLM 对金融垂直领域的专业理解,构建了目前最大规模的金融数据集 FINPILE,通过通用文本+金融知识的混合训练,让 BloombergGPT 在执行金融任务上的表现超过现有的通用 LLM模型,在通用场景上的表现与现有通用 LLM 模型能力基本持平。 模型启示:“开源模型+垂直数据”大有可为 以 GPT-3、GPT-4 为代表的大语言模型均由大型的专业人工智能团队开发,并且模型训练需要大量算力。 BloombergGPT 的成功证明了“开源模型+高质量垂直数据”的方案,可以基于垂直领域数据打造同样具有竞争力的大语言模型。大量的高质量垂直领域知识有望弥补模型在规模上的不足,对比BloombergGPT 与 GPT-3 可以看到,尽管 BloombergGPT 的模型参数相较于 GPT-3 较小,但得益于 BloombergGPT 的预训练数据增加了大量的高质量金融数据,并对预训练数据进行了一系列的清洗、标注,BloombergGPT在通用能力与 GPT-3 基本持平的情况下,实现了金融垂直能力的大幅增强。 金融 GPT 展望:掌握金融数据的厂商有望复制 BloombergGPT 路径 基于 BloombergGPT 的成功案例,我们认为,训练数据是大语言模型能力塑造的关键因素,同时,Bloomberg 在论文中明确出于对数据泄露的担忧,BloombergGPT 将采取与 OpenAI 相同的闭源方案,侧面佐证了原始的预训练数据是各家大模型竞争的重要因素。从国内的金融 GPT 的预期来看,以同花顺、恒生电子、东方财富为代表的金融 IT 厂商,掌握着丰富的金融垂直知识与现有 AI 产品布局,基于高质量的金融数据与开源的大语言模型,同样有机会打造专属金融场景的大语言模型,实现大语言模型在金融场景的有效赋能,让大语言模型成为底层的 AI 操作系统。 风险提示:宏观经济波动影响;应用落地不及预期;本报告基于公开客观信息整理,不构成投资建议。 (22)(8)72135Apr-22Aug-22Nov-22Mar-23(%)计算机沪深300 免责声明和披露以及分析师声明是报告的一部分,请务必一起阅读。 2 计算机 BloombergGPT 面世:垂直领域大模型加速落地 BloombergGPT 发布,大模型实现金融垂直领域的加速落地。2023年3月30日,Bloomberg官方发布专为金融领域打造的大语言模型(Large Language Model,LLM)BloombergGPT,实现了 LLM 在垂直场景的加速落地。相较 OpenAI 的 GPT 系列(GPT-1、GPT-2、GPT-3、GPT-4)通用大模型,BloombergGPT 在保证 LLM 通用性能的基础上,更加聚焦金融场景,更加适应金融术语的复杂性与独特性,有效实现了 GPT+垂直知识的深度融合。 图表1: Bloomberg 发布金融垂直领域大语言模型 BloombergGPT 资料来源:Bloomberg 官网、华泰研究 模型拆解:500 亿参数 LLM,核心突破在于金融语料 BloombergGPT 同样采用 decoder-only 路径,模型参数介于 GPT-2 与 GPT-3 之间。根据论文《BloombergGPT: A Large Language Model for Finance》的模型介绍显示,BloombergGPT 同样基于典型的 Transformer 架构,同时与 OpenAI 的 GPT 模型相同,采用了仅有解码器(decoder-only)的技术路径。考虑到 Tranformer 解码器与编码器的构成区别,Bloomberg 沿用了 GPT 模型的 decoder-only 技术路径,训练出的 LLM 在基于前文预测后文的自然语言生成方面具备天然优势(详细分析可参考华泰计算机 2023 年 2 月 14日发布的报告《GPT 产业复盘(2019):大容量路线》)。对比来看,BloombergGPT 的模型参数介于 GPT-2 与 GPT-3 之间,GPT-2 模型参数为 1.5 亿,GPT-3 模型参数为 1,750亿,bloombergGPT 的模型参数为 500 亿。 图表2: Tansformer 的 encoder 编码器结构示意 图表3: Tansformer 的 decoder 解码器结构示意 资料来源:《The Illustrated GPT-2 (Visualizing Transformer Language Models)》,Jay Alammar(2020)、华泰研究 资料来源:《The Illustrated GPT-2 (Visualizing Transformer Language Models)》,Jay Alammar(2020)、华泰研究 免责声明和披露以及分析师声明是报告的一部分,请务必一起阅读。 3 计算机 图表4: encoder 自注意力层与 decoder 带掩模的自注意力层对比 资料来源:《The Illustrated GPT-2 (Visualizing Transformer Language Models)》
[华泰证券]:计算机行业动态点评:从BloombergGPT看金融GPT机遇,点击即可下载。报告格式为PDF,大小2.36M,页数12页,欢迎下载。
