软件与服务行业：Anthropic发布Claude 3模型，文本窗口扩展对RAG影响有限

本报告由中信建投证券股份有限公司在中华人民共和国（仅为本报告目的，不包括香港、澳门、台湾）提供。在遵守适用的法律法规情况下，本报告亦可能由中信建投（国际）证券有限公司在香港提供。同时请务必阅读正文之后的免责条款和声明。证券研究报告·海外行业动态 Anthropic 发布 Claude 3 模型，文本窗口扩展对 RAG 影响有限核心观点 Claude 3 在代码、科学计算、通用推理等领域与 GPT-4 Turbo/GPT-4 基本接近。就文本领域的性能而言，Claude 3 Opus 接近 GPT-4 Turbo 且优于 Gemini 1.0 Ultra。Claude 3 在长文本处理方面较Claude2/1 显著提升，但模型的长文本窗口及 Haystack 测试依赖对 Prompt 的精细调整和简单的取出内容，因此，虽然当前 LLM模型在处理长文本方面取得一定进展，但其 90%+的表现不意味着模型在长文本中取出和结合上下文做复杂推理的能力，并且内存瓶颈是其核心限制，并不构成对 RAG 的完全替代。行业动态信息 Claude 3 基于文本的性能与 GPT-4 接近，长文本方面显著提升根据 Claude 3 技术报告：1）推理方面，Claude 3 在 GPQA Diamond 集的测试表现优于 GPT-4，但可能存在方差过大结果不具备代表性的隐忧，需进一步扩大测试样本数量确定实际表现。2）Claude 3 Opus 和 GPT-4 Turbo/GPT-4 在代码、科学计算、通用推理等领域表现基本接近。目前基于文本领域的性能，LLM 的排序为 GPT-4 Turbo≈Claude 3 Opus>Gemini 1.0 Ultra。3）长文本处理方面，Claude 进行了 QuALITY 和 Haystack 两种测试，较 Claude 2/1 模型稳步提升。4）多模态能力上，Claude 3 与 Gemini 1.0 Ultra 相比仍有一定差距，但略好于 GPT-4V。长文本能力测试与实际用例存在差异 Gemini/Claude 3/GPT-4 Turbo ~99%的召回率表现建立在两方面：1）对 Prompt 的精细调整 2）当前的测试主要是简单的取出内容，LLM 不需要做太多额外推理，与现实提问方式有较大差距。长文本窗口替代 RAG 的核心瓶颈在于成本，本质在于内存瓶颈现有填充 1M token 的定价在$0.25~$15，随着 GPU 性能提升，单位算力的成本可能下降，但由于 GPU 内存的限制，存储大量文本将导致分块和多组计算（将内容切分后分别放在不同 GPU 上计算后传输），这导致延迟。符尧提出利用 KV 缓存存储内容，但其占据大量内存且一旦切换文档需要重新缓存。KV 缓存策略通过精细优化提升了给定内存的处理能力，并且缩短延迟，但这些建立在给定内存的前提下，实际业务场景下往往推理需求不确定（输入的文本序列长度不确定），这给内存管理造成较大挑战。维持强于大市崔世峰 cuishifeng@csc.com.cn SAC 编号:S1440521100004 SFC 编号:BUI663 许悦 xuyue@csc.com.cn SAC 编号:S1440523030001 发布日期： 2024 年 03 月 09 日市场表现相关研究报告 07.06.11 股权变更获准 07.03.29 增资白敬宇制药持有 30%股份 07.03.05 63%控股鼓楼宿迁人民医院 -39%-19%1%21%41%61%2023/3/62023/4/62023/5/62023/6/62023/7/62023/8/62023/9/62023/10/62023/11/62023/12/62024/1/62024/2/6计算机纳斯达克综指软件与服务软件与服务海外行业动态报告请务必阅读正文之后的免责条款和声明。投资建议：整体而言，GenAI 继续沿着 Scaling Laws 拓展性能，在下游任务上解决复杂问题的能力也逐步提升，我们看好 GenAI 在产业内提效的空间。例如，在金融领域，AI 可以用于风险管理、交易执行和客户服务等方面，提高效率、降低成本并改善用户体验。在客服领域，AI 可以完成知识库的自助构建，对话式 AI 处理简单通用性问题，提升客服代理的工作效率。GenAI 提效本质是对任务处理的自动化，解放机械重复的人力开支，转而用算力替代，算力成本中长期有望指数级下降，而人力成本则持续提升，因此 GenAI 的逐步渗透将带来新一波产业创新，中长期商业化提升空间较大。软件与服务海外行业动态报告请务必阅读正文之后的免责条款和声明。目录 Claude 3 技术报告解读 ..................................................................................................................................................... 1 RAG：长文本窗口不构成对 RAG 的 100%替代 ........................................................................................................... 9 投资评价和建议 .............................................................................................................................................................. 13 风险分析 .......................................................................................................................................................................... 14 1 软件与服务海外行业动态报告请务必阅读正文之后的免责条款和声明。 Claude 3 技术报告解读 Anthropic 主要针对 Claude 3 模型进行 1）推理；2）多语种；3）长文本；4）事实性；5）多模态能力评估。我们根据 Claude 3 的技术报告1进行详细讨论。首先是 GPQA Diamond 集的测试，GPQA 是一个研究生级别的问答基准，难题侧重于研究生水平的专业知识和推理，每个问题限时 30 分钟，并且可以通过互联网搜集信息，Claude 3 在 CoT（Temp=12）设置下方差很大，Claude 研究团队通过选取 10 次评估的平均值为结果，但这一做法的潜在问题是方差很大可能意味着结果不具备代表性，需要进一步扩大测试样本数量来确定实际表现。另外，研究生级别的人类

立即下载

信息科技

2024-03-10

中信建投

19页

2.93M

[中信建投]:软件与服务行业：Anthropic发布Claude 3模型，文本窗口扩展对RAG影响有限，点击即可下载。报告格式为PDF，大小2.93M，页数19页，欢迎下载。

本报告共19页，只提供前10页预览，清晰完整版报告请下载后查看，喜欢就下载吧！

立即下载

本报告共19页，只提供前10页预览，清晰完整版报告请下载后查看，喜欢就下载吧！

立即下载

水滴研报所有报告均是客户上传分享，仅供网友学习交流，未经上传用户书面授权，请勿作商用。

软件与服务行业：Anthropic发布Claude 3模型，文本窗口扩展对RAG影响有限

关于我们

联系我们

软件与服务行业：Anthropic发布Claude 3模型，文本窗口扩展对RAG影响有限

关于我们

联系我们

小程序

公众号