DeepSeek基础知识

什么是DeepSeek- DeepSeek 公司:杭州深度求索人工智能基础技术研究有限公司。 -DeepSeek 大模型:DeepSeek 公司推出的一系列大模型的统称。DeepSeek 的背景知识 DeepSeek 公司-成立时间:2023年7月;-创始人:梁文峰(幻方量化的联合创始人);-所在城市:浙江省杭州市拱墅区;-公司口号:探索未至之境;-公司业务方向:专注于通用人工智能 (AGI) 技术的研发和应用; - “杭州六小龙”之一;-团队成员大多来自清华大学、北京大学、中山大学、北京邮电大学等国内顶尖高校。DeepSeek 的背景知识梁文峰- 出生年份:1985年;-籍贯:广东省湛江市吴川市覃巴镇米历岭村;- 学历背景:·2002年,考入浙江大学电子工程系电子信息工程专业;·2007年,考上浙江大学信息与通信工程专业研究生;2010年,获得硕士学位; - 工作背景:·2008年,开始带领团队使用机器学习等技术探索量化交易;· 2015年,创立了幻方科技(杭州幻方科技有限公司);· 2019年,其资金管理规模突破百亿元;· 2023年7月,幻方量化宣布成立大模型公司DeepSeek, 进入通用人工智能 (AGI) 领域。DeepSeek 的背景知识 DeepSeek 大模型发布时间表-2024年01月05日,正式发布首个大模型DeepSeek LLM;-2024年01月25日,正式发布DeepSeek-Coder, 由一系列代码语言模型组成;-2024年02月05日,正式发布DeepSeek-Math, 以 DeepSeek-Coder V1.57b为基础; -2024年03月11日,正式发布DeepSeek-VL, 是一个开源的视觉-语言 (VL) 模型;-2024年05月07日,正式发布第二代开源MoE 模型DeepSeek-V2;-2024年06月17日,正式发布DeepSeek-Coder-V2, 支持的编程语言从86种扩展到338种;-2024年09月06日,合并DeepSeek-Coder-V2 和DeepSeek-V2-Chat 两个模型,升级推出DeepSeek-V2.5; -2024年11月20日,正式发布DeepSeek-R1-Lite预览版;-2024年12月13日,正式发布DeepSeek-VL2, 用于高级多模态理解的专家混合视觉语言模型; -2024年12月26日,正式发布DeepSeek-V3, 并同步开源模型权重;-2025年01月20日,正式发布DeepSeek-R1、DeepSeek-R1-Zero, 并同步开源模型权重。DeepSeek 的背景知识掀起本次DeepSeek热潮的,主要是——DeepSeek-V3DeepSeek-R1DeepSeek-R1-ZeroDeepSeek的背景知识PART 02 DeepSeek 的技术特点DeepSeek-V3 的基本情况-DeepSeek-V3 是一款高性能、低成本的开源通用语言模型。- 适 用 场 景 :高性能对话、复杂任务处理和高精度场景,例如长文档分析、多模态推理、科研计算等。- 设计目标:进一步提升开源模型的能力,缩小与闭源模型的差距,同时保持训练成本的经济性。- 参 数 规 模 :共有6710亿个参数。但每次处理一个token时只激活370亿个参数。这种设计降低了计算成本。- 训 练 成 本 :总计278.8万H800 GPU小时 (Meta 的Llama3.1需要3080万GPU小时)。假设每小时2美元,费用约557.6万美元(约为GPT-4的二十分之一)。- 价 格 费 用 :模型API服务定价为每百万输入tokens 0.5元(缓存命中)/2元(缓存未命中),每百万输出 tokens 8元。在性能实现领先的同时,定价大幅低于市面上所有模型,性价比优势明显。DeepSeek 的技术特点DeepSeek-V3 的性能表现- 在数学推理 (GSM8K)、 代码生成 (HumanEval)、 常识推理 (MMLU) 等基准测试中达到领先水平。-在公开评测集(如 MMLU、BBH、DROP) 中表现优异,尤其在复杂推理任务上接近或超越GPT-4 Turbo等顶尖模型。-多项评测成绩超越了Qwen2.5-72B 和 Llama-3.1-405B GPT-40 以及Claude-3.5-Sonnet不相上下。-在知识类任务 (MMLU,MMLU-Pro,GPQA,SimpleQA) 此前表现最好的模型Claude-3.5-Sonnet-1022(Anthropic等其它开源模型,并在性能上和世界顶尖的闭源模型上的水平相比前代DeepSeek-V2.5显著提升,接近 公司于2024年10月发布)。-通过算法和工程上的创新,将生成吐字速度从20TPS(Transactions Per Second每秒完成的事务数量)大幅提高至60TPS, 相比V2.5 模型实现了3倍的提升,可以带来更加流畅的使用体验。DeepSeek 的技术特点DeepSeek-V3 的技术特点- 采 用 了多头潜在注意力 (MLA) 和DeepSeekMoE 架构,实现高效推理,提升成本效益。- 开创了 一 种无辅助损失 (auxiliary-loss-free) 策略用于负载平衡,并设置了多token预测训练目标,以提升性能。-在训练效率上,运用了FP8 混合精度训练,让显存得到了优化,极大提升了计算性能与训练稳定性。-支持千卡级训练,满足超大规模集群分布式训练需求。- 采用DualPipe (双向流水线)算法和通信优化,实现计算-通信近乎完全重叠。-训练分为三个阶段:预训练 (Pre-Training)、 长上下文扩展 (Long Context Extension) 和后训练 (Post- Training)。-推理环节通过独特的P/D分离策略和NanoFlow 的双流推理模式,提升了系统的资源利用率。DeepSeek 的技术特点关键技术——FP8 精度训练-DeepSeek-V3 将大部分计算密集型操作(如矩阵乘法)使用FP8 精度进行,同时保留一些关键操 作(如嵌入层、输出头、归一化操作等)的高精度 (BF16 或 FP32), 以确保训练的数值稳定性。-在此基础上,进一步叠加细粒度量化、高精度累加、在线量化、低精度存储和通信等技术方法, 成功实现了高效的 FP8 精度训练。-FP8 精度训练不仅显著提高了训练速度和效率,还保持了模型的高性能。DeepSeek 的技术特点DeepSeek 的技术特点关键技术——双向流水线 (DualPipe)- 核 心 思 想 是 将 模 型 的 不 同 层 分 配 到 不 同 的GPU 上 进 行 并 行 训 练 , 并 通 过 双 向 流 水 线 调 度 来 同 时 处理 正 向 传 播 和 反 向 传 播 。- 具 体 来 说 ,

立即下载
综合
2025-03-10
42页
1.49M
收藏
分享

DeepSeek基础知识,点击即可下载。报告格式为PDF,大小1.49M,页数42页,欢迎下载。

本报告共42页,只提供前10页预览,清晰完整版报告请下载后查看,喜欢就下载吧!
立即下载
本报告共42页,只提供前10页预览,清晰完整版报告请下载后查看,喜欢就下载吧!
立即下载
水滴研报所有报告均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。
相关图表
图 3.1 2021-2025 年我国信用债市场主要信用债偿债情况
综合
2025-03-10
来源:2024年中国债券市场信用风险回顾与展望
查看原文
图 2.4 2024 年破产重整的违约发行人的处置进展情况
综合
2025-03-10
来源:2024年中国债券市场信用风险回顾与展望
查看原文
图 2.3 截至 2024 年末我国公募违约债券处置进程及处置期限情况
综合
2025-03-10
来源:2024年中国债券市场信用风险回顾与展望
查看原文
表 2.1 截至 2024 年末公募违约债券主要处置方式回收率情况
综合
2025-03-10
来源:2024年中国债券市场信用风险回顾与展望
查看原文
图 2.1 2016—2024 年我国公募债券违约处置方式违约发行人分布情况
综合
2025-03-10
来源:2024年中国债券市场信用风险回顾与展望
查看原文
表 1.2 2022-2024 年我国公募债券市场发行主体信用等级调整统计表
综合
2025-03-10
来源:2024年中国债券市场信用风险回顾与展望
查看原文
回顶部
报告群
公众号
小程序
在线客服
收起