金工文献精译第八期:训练语言模型以遵循带有人类反馈的指令
请务必阅读正文之后的信息披露和法律声明 [Table_Main] 证券研究报告 | 金融工程专题 文献精译 金融工程专题 2022 年 03 月 16 日 金融工程专题 证券分析师 肖承志 姓名 资格编号:S0120521080003 邮箱:xiaocz@tebon.com.cn 资格编号:S11305XXXXXX 邮箱:xxxxx@tebon.com.cn 研究助理 相关研究 1.《股价是否充分反映了业绩中应计和现金流部分所蕴含的未来盈利信息?——德邦金工文献精译第七期》2022.07.13 2.《资产配置:管理风格和绩效衡量—— 德 邦 金 工 文 献 精 译 第 六 期 》2022.07.11 3.《规模很重要,如果控制了绩差股—— 德 邦 金 工 文 献 精 译 第 五 期 》2022.05.28 4.《中国股市的规模和价值因子模型— — 德 邦 金 工 文 献 精 译 第 四 期 》2022.04.22 5.《机器学习驱动下的金融对不确定性的吸收和加剧——德邦金工文献精译第三期》2022.02.11 6.《不可知的基本面分析是可行的—— 德 邦 金 工 文 献 精 译 第 二 期 》2022.01.14 7.《机器学习因子:在线性因子模型中捕获非线性——德邦金工文献精译第一期》2021.09.17 训练语言模型以遵循带有人类反馈的指令 ——德邦金工文献精译第八期 [Table_Summary] 投资要点: 这篇报告介绍了 ChatGPT 语言模型使用的技术。论文标题是《Training language models to follow instructions with human feedback》,于 2022 年 3 月 4 日预发布于 ArXiv,论文介绍了 OpenAI 的 InstructGPT 模型。ChatGPT 模型并未公开发表具体实现方式,但 ChatGPT 模型是基于 InstructGPT 模型进化而来的版本,它们同属于 OpenAI 的 GPT3.5 系列模型。 构建 InstructGPT 模型需要一个预训练模型、一个 “提示”集合以及若干标注员:1) InstructGPT 模型是基于 OpenAI 先前发布的 GPT-3 系列模型基础上一系列微调改进的模型;2)“提示”集合是部分用户请求 OpenAI API 生成的以及标注员生成的数据集合,这部分数据使得模型更好的读懂用户的意图;3)40 个数据标注员对该论文模型的输出进行人类反馈,得到了强化学习训练所需要的奖励模型。 训练 InstructGPT 模型的步骤如下:1)收集演示数据,训练监督策略。使用标注员团队提供的演示数据、使用监督学习方法对预训练 GPT-3 模型进行微调;2)收集比较数据,训练奖励模型。给定“提示”,让模型产生多个输出,标注人员对其好坏进行排序,训练一个奖励模型来预测人类的偏好;3)使用 PPO 算法根据奖励模型优化策略。用奖励模型的输出作为标量奖励,使用强化学习 PPO 算法来进一步微调第一步的监督模型。第二步和第三步可以连续迭代:更新后的策略可以训练出新的奖励模型,转而又优化新的策略。 InstructGPT(最小 13 亿参数量)的效果显著优于 GPT-3(1750 亿参数量)。 论文结果表明,使用人类反馈进行微调是使语言模型符合人类意图的一个有前途的方向。InstructGPT 模型的泛化能力、真实性、降低不良信息输出方面均有提高。此外,存在一定局限性:1)雇佣的标注员只能代表用户群体的一小部分,存在偏置;2)模型容易被误用,产生令人信服的错误信息、仇恨或辱骂内容等。这样的大型语言模型的部署应该非常小心。 有许多开放性问题需要进一步探索。如在减少模型有偏见或其他有害输出的倾向方面,可用过滤预训练数据等方法;在模型可控性方面,可以将基于人类反馈的强化学习方法与其他可控性方法相结合。此外,对于大型语言模型,如何更好的综合各群体的价值观、达成广泛共识将是未来最需要解决的问题。 风险提示:数据不完备和滥用风险,信息安全风险,算法伦理风险 金融工程专题 2 / 30 请务必阅读正文之后的信息披露和法律声明 内容目录 1. 摘要 ................................................................................................................................ 4 2. 简介 ................................................................................................................................ 4 3. 相关工作 ......................................................................................................................... 7 4. 方法与实验细节 .............................................................................................................. 9 4.1. 高级方法 ............................................................................................................... 9 4.2. 数据集 ................................................................................................................ 10 4.3. 任务 .................................................................................................................... 10 4.4. 人工数据收集 ..................................................................................................... 11 4.5. 模型 ...............................
[德邦证券]:金工文献精译第八期:训练语言模型以遵循带有人类反馈的指令,点击即可下载。报告格式为PDF,大小1.88M,页数30页,欢迎下载。



