人工智能行业动态:Deepseek-V3-0324更新,多项能力接近或超过GPT4.5及Claude3.7

本报告由中信建投证券股份有限公司在中华人民共和国(仅为本报告目的,不包括香港、澳门、台湾)提供。在遵守适用的法律法规情况下,本报告亦可能由中信建投(国际)证券有限公司在香港提供。同时请务必阅读正文之后的免责条款和声明。 证券研究报告·行业动态 Deepseek-V3-0324 更新,多项能力接近或超过 GPT4.5 及 Claude3.7 核心观点 1. 3 月 24 日,Deepseek-V3 深夜 版本更新 ,新模 型 版 本 为DeepSeek-V3-0324,参数量为 6850 亿,开源版本上下文 长度为 128K,可以在消费级设备运行。 2. DeepSeek-V3-0324 各项性能显著提升,在数学方面,V3-0324超过 GPT4.5 和 claude3.7,在代码生成能力方面,以极 低的成本超过 claude3.5,并达到接近 Claude-Sonnet-3.7 的能力。在百科知识(MMLU-Pro, GPQA)、数学(MATH-500, AIME 2024)和代码任务(LiveCodeBench)上的表现均有提升,在数学推理和代码生成方面实现巨大提升,在测试中一举超过 Claude-Sonnet-3.7。 3. DeepSeek-V3 的能力显著提高,证明了深度求索团队不 仅在推理模型上的先发优势,在预训练基模型的能力同样出 众,其优秀的工程化能力保证了以极低的成本达到目前大模 型的顶尖水平。 产业要闻 【澳大利亚国立大学团队提出了 ARINAR 模型】、【Nvidia 发布多模态世界生成模型】、【斯坦福团队提出块离散去噪扩散语言模型】、【苹果开发者大会将于 6 月份举行】、【华为将推出鸿蒙电脑】、【蔚来与宁德时代宣布合作】、【比亚迪海洋网新车型上市】 持续关注: GPU:英伟达、超威半导体、海光信息等; FPGA:安路科技-U 等; SoC:高通、全志科技等; 自然语言处理:科大讯飞等; 自动驾驶:德赛西威、中科创达、均胜电子; 智慧交通:千方科技、万集科技; AI+工业:中控技术、华大九天、广立微、柏楚电子、理工 能科 等。 风险提示:北美经济衰退预期逐步增强,宏观环境存在较大的不确定性,国际环境变化影响供应链及海外拓展;芯片紧缺 可能影响相关公司的正常生产和交付,公司出货不及预期。 维持 强于大市 于芳博 yufangbo@csc.com.cn 010-86451607 SAC 编号:S1440522030001 发布日期: 2025 年 03 月 31 日 相关研究报告 人工智能 计 算机设备 行业动态报告 请务必阅读正文之后的免责条款和声明。 目录 一、行业变化......................................................................................................................................................................................... 1 二、持续关注标的................................................................................................................................................................................ 3 三、行情回顾......................................................................................................................................................................................... 3 四、产业要闻......................................................................................................................................................................................... 7 五、重要公告......................................................................................................................................................................................... 8 六、风险分析......................................................................................................................................................................................... 9 1 计 算机设备 行业动态报告 请务必阅读正文之后的免责条款和声明。 一、 行业变化 Deepseek-V3 上新:各项能力全面提升 3 月 24 日,DeepSeek V3 模型完成了小版本更新,目前版本号 DeepSeek-V3-0324,用户登录官 方网页 、APP、小程序进入对话界面后,关闭深度思考即可体验。API 接口和使用方式保持不变。 新模型版本为DeepSeek-V3-0324,没有公布详细的模型卡,参数量为 6850 亿,开源版本上下文长度为 128K,相较上个版本参数增幅不大(6710 亿)。从发布时间以及技术特点上看来,这个架构有一定可能是 DeepSeek-R2 的基础架构,后者可能在近期推出。 开源方面,DeepSeek V3 采用 MIT 开源协议,允许用户利用模型输出、通过模型蒸馏等方式训练其 他模型。 在硬件方面,模型规模较大,但也能在消费设备上运行,在测试上,苹果机器学习工程师 Awni Hannun 就基于 MLX 框架和 4-bit 量化,在 512GB M3 Ultra 实现了超过 20 token/s 的运行速度。 图表1: 成功在消费级设备运行 资料来源:新智元,中信建投 新版 V3 模型借鉴 DeepSeek-R1 模型训练过程中所使用的强化学习技术,大幅提高了在推理类 任务上 的表现水平,在数学、代码类相关评测集上成功取得了超过 GPT-4.5 的得分成绩,在百科知识(MMLU-Pro, GPQA)、数学(MATH-500, AIME 2024)和代码任务(LiveCodeBench)上的表现均有提升,在数学推理和代码 生成 方面实现巨大提

立即下载
信息科技
2025-04-07
中信建投
14页
2.47M
收藏
分享

[中信建投]:人工智能行业动态:Deepseek-V3-0324更新,多项能力接近或超过GPT4.5及Claude3.7,点击即可下载。报告格式为PDF,大小2.47M,页数14页,欢迎下载。

本报告共14页,只提供前10页预览,清晰完整版报告请下载后查看,喜欢就下载吧!
立即下载
本报告共14页,只提供前10页预览,清晰完整版报告请下载后查看,喜欢就下载吧!
立即下载
水滴研报所有报告均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。
相关图表
金山云与小米集团2025-2027融资服务框架(亿元)
信息科技
2025-04-07
来源:人工智能行业GenAI系列报告之五十四:AI云计算新范式,规模效应+AIInfra+ASIC芯片
查看原文
金山云股东结构(截至2024年6月30日)
信息科技
2025-04-07
来源:人工智能行业GenAI系列报告之五十四:AI云计算新范式,规模效应+AIInfra+ASIC芯片
查看原文
2023年中国云会议市场份额(%)
信息科技
2025-04-07
来源:人工智能行业GenAI系列报告之五十四:AI云计算新范式,规模效应+AIInfra+ASIC芯片
查看原文
MTIA v2软件堆栈主要基于Triton编程语言
信息科技
2025-04-07
来源:人工智能行业GenAI系列报告之五十四:AI云计算新范式,规模效应+AIInfra+ASIC芯片
查看原文
阿里巴巴2024年8月开源的大规模对齐训练框架PAI-ChatLearn在Llama2
信息科技
2025-04-07
来源:人工智能行业GenAI系列报告之五十四:AI云计算新范式,规模效应+AIInfra+ASIC芯片
查看原文
字节在2024年2月提出的MegaScale训练框架的MFU相对英
信息科技
2025-04-07
来源:人工智能行业GenAI系列报告之五十四:AI云计算新范式,规模效应+AIInfra+ASIC芯片
查看原文
回顶部
报告群
公众号
小程序
在线客服
收起