百度(BIDU.US)大模型研究笔记(三)
本报告由中信建投证券股份有限公司在中华人民共和国(仅为本报告目的,不包括香港、澳门、台湾)提供。在遵守适用的法律法规情况下,本报告亦可能由中信建投(国际)证券有限公司在香港提供。同时请务必阅读正文之后的免责条款和声明。证券研究报告·美股公司深度软件与服务百度:大模型研究笔记(三)核心观点大模型规模竞赛强度有望下降,精益优化可能成为主要方向,如数据清洗、初始化策略、大批量训练等。另一方面,推理部署环节的优化进度较快,主要思路包括调整模型架构实现计算并行度提升,或通过捕捉参数结构实现混合精度推理,降低计算复杂度。这些技术演进有望大幅降低大模型产品的部署、应用门槛,打开to C 产品的想象空间。我们认为中长期 AI 领域具备广阔前景,看好百度在 AIGC 领域的布局和先发优势。大模型研究笔记(三)模型结构方面,Meta 研究团队于 2023 年 5 月提出 Megabyte,基于对 Transformer 架构做出改进:Transformer 架构是以 token 为基本单位的,而 token 形式的目的是将输入数据转换成计算机可以处理的形式,但 token 与单词并非一一对应,这等于带来额外的分词成本。Megabyte 对模型处理的基础单元做出修改,从 token改为 patch,此外引入局部模块预测 patch 内文本序列,相当于引入二次注意力机制,最终实现计算成本降低、速度提升。预训练环节,现有超大参数模型部署端侧时受限于终端计算资源和功耗,需要小、低延迟和低能耗的神经网络模型,从而节省成本。混合精度训练是把 FP32 表示的权重、参数和激活值用 FP16、INT8、INT4 重新表示,并且通过浮点数转定点数将连续的数值映射为离散化的数值,从而加快训练速度和降低存储占用。最新的进展来自 ETH 的 SpQR,将剪枝思想迁移至推理环节的混合精度,在 1%的性能损失下大幅提升推理效率。下游调试方面,1)Alignment 环节的数据质量和多样性可能比数量重要。Meta 研究团队提出 Alignment 实质是模型在预训练阶段学习知识,在 Alignment 阶段学习人类交互形式。研究团队通过控制变量比较了数据质量、规模对 Alignment 后模型性能的影响,发现数据质量对性能影响显著,数量影响则不显著;2)Prompt环节 ToT 提升 LLM 解决复杂问题的能力。Google DeepMind 等团队于 2023 年 5 月提出 Tree-of-thoughts(ToT)。ToT 则是借鉴人类思考的思维树范式,相比于 CoT,ToT 增加了对问题的分解和评估,实现模型解决复杂问题的表现提升。维持买入崔世峰cuishifeng@csc.com.cnSAC 编号:s1440521100004许悦xuyue@csc.com.cnSAC 编号:s1440523030001发布日期:2023 年 06 月 21 日当前股价:143.52美元/142.70 港元目标价格 6 个月: 173美元/169 港元主要数据股票价格绝对/相对市场表现(%)1 个月3 个月12 个月13.71/3.009.02/-10.700.20/-23.1412 月最高/最低价(美元)160.22/76.57总股本(万股)34,959.72流通股本(万股)27,751.54总市值(亿美元)507.30流通市值(亿美元)507.30近 3 月日均成交量(万)297.81主要股东Robin Yanhong Li16.30%股价表现相关研究报告百度(BIDU.O)/百度集团-SW(9888.HK) 美股公司深度报告百度请务必阅读正文之后的免责条款和声明。3)RLHF 环节,引入过程监督 RM 提升面向复杂问题的解决能力。2023 年 5 月 OpenAI 团队提出《Let’s VerifyStep by Step》,主要解决 CoT 下过程缺乏监督导致结果准确率不高的问题。因此,其在每一个步骤中引入 RM,即过程监督 RM 模型,并预测每个步骤之后的 token,最大化目标 token 的对数似然,实验表明性能提升明显。推理方面,CMU Catalyst Group 于 2023 年 5 月提出 SpecInfer 推理引擎,较传统推理效率提升 2.8x。LLM自回归式解码存在 1)并行计算利用率低;2)显存占用大等问题。CMU 研究团队的解决思路是引入计算代价更小的 SSM 替代 LLM 进行推理,且一次进行多步推理,再由 LLM 进行验证,整体来看通过提升计算并行度实现推理效率提升。另一种思路来自混合精度推理,ETH Zurich 等机构的研究团队于 2023 年 6 月提出 SpQR。混合精度推理的难点主要在于 Transformer 模型序列生成过程中的错误会逐步累加。面对这一问题,研究团队的思路 1)大模型的参数之间并非随机分布,而是存在特定结构的;2)研究团队对量化过程进行两个改变:一个用于捕捉小的敏感权重组,另一个用于捕捉单个的异常值。通过对敏感权重和异常值保留高精度,而其他参数降低精度,模型输出性能损失较原模型在可控范围,且推理的成本和效率大幅优化。基于大模型研究笔记(一)、(二)与本篇报告,我们认为 1)模型数据集、训练量的优化是重要方向;2)初始化策略、加速优化器能够在小批量训练集中优化模型性能,大批量训练目前研究的上限是 32K,这与训练速度存在权衡取舍;3)下游调试中如 PET 等方法短期见效快,但在复杂问题的解决能力方面提升并不明显,模仿学习可能并不是一条高效路径。另一方面,引入人工标注辅助过程监督,这对效果提升显著,未来再通过AI 模拟人类的过程监督,这条技术路径具备较好前景;4)推理部署环节的优化进度较快,主要思路包括调整模型架构实现计算并行度提升,或通过捕捉参数结构实现混合精度推理,降低计算复杂度。这些技术演进有望大幅降低大模型产品的部署、应用门槛,打开 to C 产品的想象空间;5)部分模型能力如 Context Window 来自底层硬件约束,未来软硬一体可能是关键壁垒,对 LLM 厂商的全栈实力提出较高要求。另一方面,对于全栈布局不足的厂商,开源大模型构建繁荣开发者生态也是一条可选路径,海外的开源社区迭代较快,能够推动 LLaMA拉近与 GPT-4 的差距。投资建议:百度搜索广告业务预计受益经济复苏,且效果广告受益序列较品牌广告媒介更优先,信息流广告则受益展现形式的效率继续驱动广告业务增长。云业务随着疫后回归常态,项目交付、新签订单逐步兑现,向上复苏趋势明确。ERNIE BOT 方面,短期商业化前景尚不清晰,但可作为 Option 机会,我们认为中长期 AIGC方向是 AI 领域具备广阔应用场景且有希望构建合适商业模式的机会,看好百度在 AIGC 领域的布局和先发优势。维持对百度集团的“买入”评级。 美股公司深度报告百度请务必阅读正文之后的免责条款和声明。目录1. 模型结构:Meta 提出 Megabyte,优化计算成本与推理效率........................................................
[中信建投]:百度(BIDU.US)大模型研究笔记(三),点击即可下载。报告格式为PDF,大小10.19M,页数29页,欢迎下载。
