计算机行业周报:全球首个混合推理模型Claude 3.7 Sonnet发布,高情商模型GPT-4.5问世
2025 年 03 月 04 日 全球首个混合推理模型 Claude 3.7 Sonnet 发布,高情商模型 GPT-4.5 问世 —计算机行业周报 推荐(维持) 投资要点 分析师:宝幼琛 S1050521110002 baoyc@cfsc.com.cn 行业相对表现 表现 1M 3M 12M 计算机(申万) 16.6 5.1 27.9 沪深 300 1.9 -1.6 9.9 市场表现 资料来源:Wind,华鑫证券研究 相关研究 1、《计算机行业周报:微软全球首个拓扑量子处理器惊艳亮相,Grok3推理能力登顶》2025-02-23 2、《计算机行业点评报告:亚马逊(AMZN.O):2024Q4 财报超预期,多业务协同驱动增长》2025-02-17 3、《计算机行业点评报告:安费诺(APH):2024 年业绩创纪录,多元 业务助力增长》2025-02-17 ▌算力:恒源云 13 核+128G 算力紧张 本周恒源云 13 核+128G 算力紧张。具体来看,显卡配置为A100-40G 中,腾讯云 16 核+96G 价格为 28.64 元/时,阿里云12 核+94GiB 价格为 31.58 元/时;显卡配置为 A100-80G 中,恒源云 13 核+128G 算力紧张;阿里云 16 核+125GiB 价格为34.74 元/时;显卡配置为 A800-80G 中,恒源云 16+256G 价格为 9.00 元/时。 ▌AI 应用:全球首个混合推理模型 Claude 3.7 Sonnet 发布, OpenAI 推出“高情商”模型 GPT-4.5 2 月 25 日,Claude 3.7 Sonnet 正式发布,是全球首款双模式混合推理模型,标准模式快速响应,扩展思考模式进行深度自我反思,在数学、物理和编程等复杂任务上表现卓越,注重实用导向,不必要拒绝减少 45%,强化代码协作能力。 在标准模式下,Claude 3.7 Sonnet 是 Claude 3.5 Sonnet 的升级版;切换到扩展思考(Extended Thinking)模式(可简单理解为推理),它会在回答前进行自我反思,大幅提升在数学、物理、指令理解和编程等复杂任务上的表现。从基准测试结果来看,Claude 3.7 Sonnet(扩展思维版)适用于强逻辑推理和数学任务,而 Grok 3 Beta 和 DeepSeek R1 则在特定任务(推理、数学竞赛)上表现更佳。 在推理模型的优化过程中,Anthropic 减少了对数学和计算机科学竞赛问题的侧重,更专注于满足企业对 LLM 的实际应用需求。在评估 AI 解决真实软件问题能力的 SWE-bench Verified 基准测试中,Claude 3.7 Sonnet 达到了行业领先水平。同时,该模型在 TAU-bench 测试中也表现不错,准确度超过旧版本和 OpenAI o1。 另外,Claude 3.7 Sonnet 在 Anthropic 内部的 Pokémon 游戏测试中超越了所有前代模型,展现了更强的决策与规划能力。该模型现已适用于所有 Claude 订阅计划,包括免费版、专业版、团队版和企业版,同时也可通过 Anthropic API、Amazon Bedrock 和 Google Cloud 的 Vertex AI 访问。 北京时间 2 月 28 日凌晨,美国 OpenAI 公司推出 GPT-4.5 模型(代号 Orion),这是该公司有史以来算力和数据规模最-40-200204060(%)计算机沪深300证券研究报告 行业研究 证券研究报告 请阅读最后一页重要免责声明 2 诚信、专业、稳健、高效 大、最佳的 AI 基座模型,本周将面向每月 200 美元的ChatGPT Pro 用户开放,下周向 ChatGPT Plus 开放。OpenAI表示,GPT-4.5 在预训练和后训练的扩展上取得进展,通过扩展无监督学习提升了模式识别等能力。 能力提升方面,与 GPT-4o 相比,GPT-4.5 在传统的 LLM 基准测试中取得了明显进步。在 GBQA(数学等推理任务评估)、AME(数学竞赛评估)、SWE-Bench Verified(编码评估),以及 MMMLU(多语言理解)和 MMMU(多模态理解)等主流评测基准上,GPT-4.5 均超过 GPT-4o,成为目前最强大的 GPT模型。但在前述多个测试,它仍然落后于深度推理模型 o3 Mini,仅在 MMMLU 和 SWE-Lancer(世界知识的编码评估)测试上,GPT-4.5 优于 o3 Mini,显示了无监督学习与推理规模扩展的互补性。 在与人类测试者的对比评估中,GPT-4.5 在创意智能、专业查询和日常查询方面相比 4o 有更高胜率,表现出更强的审美直觉和创造力,在日常查询当中能够达到 57%,专业查询达63.2%,“情商”更高。此外,虽然 GPT-4.5 没有深度思考,但未来推理将成模型核心能力,所以 GPT-4.5 采用预训练和推理两种扩展方法相互补充。 此外,OpenAI 会向所有付费级别的开发者发布 GPT-4.5,支持函数调用、结构化输出等功能。这也是 OpenAI 有史以来最贵的模型,API 价格为每百万 Token 输入 75 美元,每百万输出 150 美元,价格昂贵。 对比来看,同等 Token 规模下,GPT-4o 输入输出分别仅需 2.5/10 美元,Claude 3.7 Sonnet分别为 3 美元和 15 美元;DeepSeek-V3 输出是 8 元,DeepSeek-R1 输出则是 16 元(标准时段)。这意味着,GPT-4.5 的 API 输出价格为 DeepSeek-V3 的 130 多倍、DeepSeek-R1 的 70 倍。 ▌AI 融资动向: Anthropic 融资规模扩大至 35 亿美元,估值达 615 亿美元 人工智能初创公司 Anthropic 正在完成一轮新的融资,该轮融资规模已从最初计划的 20 亿美元增至 35 亿美元。这轮融资将使公司的估值达到 615 亿美元。参与本次融资的投资者包括 Lightspeed Venture Partners、General Catalyst、Bessemer Venture Partners 以及总部位于阿布扎比的投资公司 MGX 等。若融资成功完成,Anthropic 的总融资额将达到约 180 亿美元。尽管 Anthropic 的年化收入约为 12 亿美元,但公司目前仍在亏损。该公司表示,将利用此次融资所得加大对更先进 AI 技术的研发投入。Anthropic 以其人工智能聊天机器人 Claude 而闻名,日前发布了其最新的旗舰 AI 模型 Claude 3.7 Sonnet,并称其为公司迄今为止“最智能”的版本。这款模型最大的特点在于其“混合”模式,它结 合 了 推 理 能 力 和 实 时 输 出 答 案 的 传 统 模 型 的 优 势 。证券研究报告 请阅读最后一页重要免责声明 3 诚信、专业、稳健、高效 Anthropic 声称其是市场上唯一一款此类“混合”模型,并且已立
[华鑫证券]:计算机行业周报:全球首个混合推理模型Claude 3.7 Sonnet发布,高情商模型GPT-4.5问世,点击即可下载。报告格式为PDF,大小0.89M,页数16页,欢迎下载。
