Claude3技术报告-Claude3模型系列作品、十四行诗、俳句
1 简介抽象的1我们支持 JPEG/PNG/GIF/WebP,最大 10MB 和 8000x8000px。我们建议避免使用小或低分辨率的图像。Claude 3 Opus 是我们最智能的模型,为推理、数学和编码测量设立了新标准。与其前身一样,Claude 3 模型采用了各种训练方法,例如无监督学习和宪法人工智能 [6]。这些模型使用 Amazon Web Services (AWS) 和 Google Cloud Platform (GCP) 的硬件进行训练,核心框架包括 PyTorch [7]、JAX [8] 和 Triton [9]。Opus 和 Sonnet 都表现出了在细致入微的内容创建、分析、预测、准确总结和处理科学查询方面的熟练程度。这些模型旨在帮助企业实现任务自动化、通过面向用户的应用程序创收、进行复杂的财务预测以及加快各个部门的研发。 Claude 3 Haiku 是市场上同类智能产品中最快、最实惠的选择,同时还包括视觉功能。整个 Claude 3 系列在编码任务和西班牙语和日语等非英语语言的流畅性方面比前几代产品有了显着提高,从而实现了翻译服务和更广泛的全球实用性等用例。Claude 3 模型系列由 Anthropic 开发并于 2024 年 3 月宣布,将在我们的消费者产品(Claude.ai、Claude Pro)以及 Anthropic API、Amazon Bedrock 和 Google Vertex AI 等企业解决方案中提供。 Claude 3 模型的知识截止日期是 2023 年 8 月。该模型卡介绍了 Claude 3 系列模型,该模型在推理、数学、编码、多语言理解和视觉质量方面树立了新的行业基准。Claude 3 系列的一个关键增强功能是具有文本输出的多模式输入功能,允许用户上传图像(例如表格、图表、照片)以及文本提示,以获得更丰富的上下文和扩展的用例,如图 1 和附录 B 所示。 1该模型系列还擅长工具使用(也称为函数调用),允许将 Claude 的智能无缝集成到专门的应用程序和自定义工作流程中。我们推出 Claude 3,一个新的大型多式联运型号系列 ‑ Claude 3 Opus,我们最强大的产品, Claude 3 Sonnet,它提供技能和速度的结合,以及Claude 3 Haiku,我们最快且最便宜的型号。所有新模型都具有视觉功能,使它们能够处理和分析图像数据。 Claude 3 系列在基准评估中表现出强劲的性能,并为推理、数学和编码的测量树立了新标准。 Claude 3 Opus 在 GPQA [1]、MMLU [2]、MMMU [3] 等评估中取得了最先进的结果。在大多数纯文本任务上,Claude 3 Haiku 的表现与 Claude 2 [4] 一样甚至更好,而 Sonnet 和 Opus 则明显优于它。此外,这些模型在非英语语言方面表现出更高的流利性,使其更适合全球受众。在本报告中,我们对我们的评估进行了深入分析,重点关注核心能力、安全、社会影响以及我们在负责任的扩展政策 [5] 中承诺的灾难性风险评估。人择该模型卡并不旨在涵盖我们所有的研究。为了全面了解我们的培训和评估方法,我们邀请您探索我们的研究论文(例如,评估中的挑战)Claude 3 模型系列:作品、十四行诗、俳句Machine Translated by Google2 型号详情有关提示设计的更多信息和建议,请参阅我们的文档: https://docs.anthropic.com/claude/docs/introduction‑to‑prompt‑design 。这些模型不应在高风险情况下单独使用,因为错误的答案可能会造成伤害。例如,虽然克劳德模型可以支持律师或医生,但不应部署它们来代替律师或医生,并且任何响应仍应由人类审查。 Claude 模型目前不会搜索网络(尽管用户可以要求他们与直接共享的文档进行交互),并且模型仅使用截至 2023 年中期的数据回答问题。 Claude 模型可以连接到搜索工具,并经过彻底的训练来使用它们(通过网络或其他数据库),但除非特别指出,否则应假设 Claude 模型没有使用此功能。 Claude 模型具有多语言能力,但在资源匮乏的语言上表现较差(请参阅下面第 5.6 节中的多语言评估,了解更多详细信息)。2.2 意外用途用户将它们描述为感觉可操纵、适应性强且有吸引力。2.3 禁止用途克劳德被训练成一名乐于助人、诚实且无害的助手。 Claude 模型擅长就想法进行开放式对话和协作,并且在编码任务和处理文本时也表现出色 ‑ 无论是搜索、写作、编辑、概述还是总结。2 Claude 3 系列的多模式功能可以解释视觉输入(例如图表、图形和照片)以支持其他用例和生产力。克劳德模特有一种乐于助人、健谈的语气,可以对“个性”进行指导。Claude 使用用户输入的所有文本(提示)以及迄今为止在对话中生成的所有文本来预测下一个最有帮助的单词或标记。这意味着 Claude 一次按顺序构造一组字符的响应。在构建响应后,它无法返回并编辑响应,除非用户在后续提示中给它机会这样做。克劳德也只能看到(并做出预测)其上下文窗口中出现的内容。它无法记住以前的单独对话,除非用户在提示中重新插入此类材料,也无法打开链接。2.1 预期用途人工智能系统 [10]、减少危害的红队语言模型 [11]、大型语言模型中的道德自我纠正能力 [12]、衡量语言模型中主观全球观点的表征 [13]、前沿威胁红队人工智能安全[14],以及我们的负责任的扩展政策[5]以解决灾难性风险)。除了我们的公共研究之外,我们还致力于在行业、政府和民间社会之间分享研究结果和最佳实践,并定期与这些利益相关者接触,分享见解和最佳实践。我们期望在继续研究和评估前沿模型的过程中发布新的发现。我们的可接受使用政策 (AUP) [15] 包含有关禁止使用案例的详细信息。这些禁止的用途包括但不限于政治竞选或游说、监视、社会评分、刑事司法决定、执法以及与融资、就业和住房有关的决定。 AUP 还概述了商业用途的额外安全要求,例如要求披露正在使用的人工智能系统并概述其功能和限制。 AUP 还详细说明了哪些用例需要实施人机参与措施。2.4 防止滥用检测和减少对我们技术的禁止使用对于防止不良行为者滥用我们的模型生成滥用、欺骗或误导性内容至关重要。我们使用自动化系统实时检测发生的 AUP 违规行为。被标记为违反 AUP 的用户提示会触发我们的模型做出更加谨慎响应的指令。如果用户提示特别2AUP 适用于图像和文本提示,所有 Anthropic 用户在访问 Claude 模型之前必须阅读并明确承认 AUP。我们定期审查和更新 AUP,以确保我们的产品尽可能安全和值得信赖。2Machine Translated by Googl
Claude3技术报告-Claude3模型系列作品、十四行诗、俳句,点击即可下载。报告格式为PDF,大小3.99M,页数42页,欢迎下载。