电子行业AI：GPT-4有什么不同

免责声明和披露以及分析师声明是报告的一部分，请务必一起阅读。 1 证券研究报告电子 AI：GPT-4 有什么不同华泰研究电子增持 (维持) 研究员黄乐平，PhD SAC No. S0570521050001 SFC No. AUZ066 leping.huang@htsc.com +(852) 3658 6000 联系人胡宇舟 SAC No. S0570121040041 SFC No. BOB674 huyuzhou@htsc.com +(852) 3658 6000 联系人权鹤阳 SAC No. S0570122070045 quanheyang@htsc.com +(86) 21 2897 2228 行业走势图资料来源：Wind，华泰研究 2023 年 3 月 15 日│中国内地动态点评 GPT4 有何不同：多模态、推理能力、预测扩展性当地时间 3 月 14 日，OpenAI 正式发布 GPT-4。考虑到竞争格局和大型模型的安全影响，OpenAI 并未披露模型大小、硬件、训练计算、数据集构建、训练方法等细节。经过试用与研究，我们认为 GPT-4 相比 GPT-3.5 有以下升级：1）多模态能力：支持文本和图像输入（目前图像输入尚未开放）；2）推理能力：在律师考试、GRE Quantitative、LSAT 等测试中的表现均优于GPT-3.5；3）同时推出便于落地的工具：推出预测扩展性的深度学习堆栈以及 Evals 评估框架，使下游厂商能够以较小的成本试用，然后选择最合适的大模型。此外，我们注意到 OpenAI 继 AGI 路线图强调 AI 公平性与可控性之后，本次推出 GPT-4 时，强调其在大模型安全可控上做出的努力。多模态能力：有望重塑软件和硬件交互，想象空间巨大相比 GPT-3.5 仅支持文字/代码的输入输出，GPT-4 支持输入图像并且能够真正理解（输入图像还处于内测中，尚未开放）：例如，发布会上演示了输入手绘网页草稿，GPT-4 生成网页代码的功能。我们认为多模态能力首先有望重塑从浏览器到文档智能等的软件交互：OpenAI 展示了输入有图有文字的物理题，GPT-4 能够理解文图并回答问题。真正的图像理解能力如果嵌入浏览器、文档智能工具中，能够进一步解放生产力。在未来，多模态能力还有望重塑从手机、PC 到智能家居的硬件交互领域：例如，谷歌 23 年 3 月发布的 PaLM-E 已经支持图文多模态输入，指导机器人完成任务的功能。 GPT-4 对复杂任务理解更强，推理能力提升显著 GPT-4 理解复杂任务的能力相比 GPT-3.5 有所提升, 因此遵循用户意图的能力更强：在盲测中，由 GPT-4 生成的回答在 70.2%的情况下更受用户欢迎。GPT-4 在一系列专业和学术考试中取得了人类水平的表现：在 GRE 语文考试达到前 1%，在律师考试达到前 10%，在 GRE 数学达到前 20%水平，相比 GPT-3.5 进步明显，推理能力提升显著。我们认为 GPT-4 显示出人工智能在许多复杂任务中已经能够达到人类水平，人工智能用例将大大拓展，这是通往 AGI（通用人工智能）的又一次跃迁。 “大”并非全部，大模型降低使用门槛、提高落地效果更加重要由于大模型的规模化效应，增加模型参数量、数据量有助于提升模型表现。过去数年中，行业推出大模型时也往往标榜模型规模之大。然而我们看到从2022 年起，行业不再简单追求更“大”的模型，便于下游落地的重要性日益提升。本次 GPT-4 推出了预测扩展性的深度学习堆栈，使用千分之一至万分之一的算力就能够可靠地预测 GPT-4 在下游垂直领域使用的性能。下游厂商可以先以较小的成本广泛试用，选择最合适的大模型。此外，OpenAI开源了 Evals 评估框架，便于用户选择模型。我们认为，行业已经逐渐走出单纯强调模型规模的时代，降低使用门槛、提高实际落地效果更加重要。 GPT-4 更加安全，AI 安全性与技术发展同等重要 OpenAI 在今年 2 月发布 AGI 计划，强调大模型的可控性与公平性。本次发布 GPT-4，OpenAI 表示花了 6 个月的时间使其更加安全并与人类价值观一致，引入了包括 ChatGPT 用户提交的反馈等等人类反馈，以改善 GPT-4 的行为。相比 GPT-3.5，GPT-4 对禁止内容作出响应的可能性下降 82%，做出事实性回应的可能性高 40%。但是，OpenAI 仍然提示 GPT-4 在偏见、虚假信息、隐私等方面的风险。我们认为 AI 的安全性与技术发展同样重要。风险提示：AI 及技术落地不及预期；本研报中涉及到未上市公司或未覆盖个股内容，均系对其客观公开信息的整理，并不代表本研究团队对该公司、该股票的推荐或覆盖。 (26)(17)(9)09Mar-22Jul-22Nov-22Mar-23(%)电子沪深300仅供内部参考，请勿外传免责声明和披露以及分析师声明是报告的一部分，请务必一起阅读。 2 电子多模态模型：理解图像输入+语言能力提升显著 GPT-4 理解图像输入，多模态能力未来想象空间巨大相比 GPT-3.5 仅支持文字/代码的输入输出，GPT-4 能够支持图像输入，并进行识别、推理和分析（输入图像还处于内测中，尚未开放）。根据 OpenAI 官网给出的范例，GPT-4 能够识别图中的食材，并分析用这些食材能够做出哪些菜品。发布会上演示了输入手绘网页草稿，GPT-4 生成网页代码的功能。图表1： GPT-4 能够根据图像进行识别和推理资料来源：OpenAI，华泰研究图表2： GPT-4 能够理解图像要求，生成相应代码资料来源：OpenAI，华泰研究我们认为多模态能力首先有望重塑从浏览器到文档智能等的软件交互，未来还有望重塑从手机、PC、智能手表到智能家居的硬件交互。软件交互领域：OpenAI 展示了输入有图有文字的物理题，GPT-4 能够理解文图并回答问题；输入图文并茂的论文，GPT-4 能归纳理解并解释图表含义。真正的图像理解能力如果嵌入浏览器、文档智能工具中，能够进一步解放生产力。硬件交互领域：例如，谷歌在 2023 年 3 月发布的 PaLM-E 已经支持图文多模态输入，指导机器人完成任务的功能。输入手绘网页草稿输出网页html代码仅供内部参考，请勿外传免责声明和披露以及分析师声明是报告的一部分，请务必一起阅读。 3 电子图表3： GPT-4 能归纳理解论文并解释图表含义图表4：谷歌 PaLM-E 支持操控机器人完成特定任务资料来源：OpenAI，华泰研究资料来源：PaLM-E: An Embodied Multimodal Language Model，华泰研究语言能力相比 GPT-3.5 提升显著相比 ChatGPT， GPT-4 文字输入限制提升至 2.5 万字，可用于长篇内容创作、长时间对话以及文档搜索和分析等应用场景。在处理简短对话时，GPT-4 和 GPT-3.5 的区别并不显著，但当任务的复杂度达到足够的阈值时，GPT-4 能够

立即下载

信息科技

2023-03-16

华泰证券

11页

1.16M

[华泰证券]:电子行业AI：GPT-4有什么不同，点击即可下载。报告格式为PDF，大小1.16M，页数11页，欢迎下载。

本报告共11页，只提供前10页预览，清晰完整版报告请下载后查看，喜欢就下载吧！

立即下载

本报告共11页，只提供前10页预览，清晰完整版报告请下载后查看，喜欢就下载吧！

立即下载

水滴研报所有报告均是客户上传分享，仅供网友学习交流，未经上传用户书面授权，请勿作商用。

电子行业AI：GPT-4有什么不同

关于我们

联系我们

电子行业AI：GPT-4有什么不同

关于我们

联系我们

小程序

公众号