详解DeepSeek:模型训练优化及数据处理的技术精髓

DeepSeek 是什么 DeepSeek是杭州深度求索人工智能基础技术研究有限公司推出的一款创新大语言模型。公司成立于2023年7月17日,由知名私募巨头幻方量化孕育而生。DeepSeek致力于开发和应用先进的大语言模型技术深度小助手聪明且低成本聪明强大能干中国本土AI深度思考联网搜索DeepSeek :大语言模型的特点有哪些 ?内容 token 化大模型看到的世界与人看到的不太一样训练前需要将文本进行处理,比如切割称为Token的基本单元;比如问ai 一个英文单词 illegal 中有几个字母l,有些指令模型回答为2个;但deepseek r1 推理模型是可以回答正确!模型训练存在endtime大模型训练语料存在一个截止时间deepseek R1虽然是25年1月发布,但它的知识库截止日期是2023年12月,这就意味着ds可以提供在此日期发布之前的公开信息和常识;需要经过大量清洗、监督微调、反馈强化学习。但对于之后的新闻、事件变化、新事物则无法直接获取或验证。 解决办法是开启联网模式或提示词中 补充说明无自我认识无自我意识网上有个段子是“有人问deepseek你是谁,然后回答是gpt”目前AI 大模型不知道自己是谁,也不知道自己是采用什么模型。 除非是厂商在后期再微调、或再训练,如果大家问到类似的问题,可能目前的AI 大模型会回答错误。解决办法是少问 AI是谁、采用什么模型上下文长度限定记忆力有限AI 大模型目前的记忆力大概是64k ~ 128k目前AI 大模型均有上下文长度限定;deepseek r1 提供64k token上下文长度,对应中文的话大约3万~4万字。目前还不能一次性投喂太长的文档给它,比如:一本完成西游记、或者非常长的文档让它翻译,AI 它是没有办法完整读完 解决办法是分成多次投喂回答输出长度有限AI 大模型目前的回答4k ~ 8k,2000~4000字目前AI 大模型无法一次性完成万字长文,也无法一次性输出5千字,均是模型输出长度限制所致;如果是输出长文,可以尝试先让AI 大模型先生成一个目录,然后再根据目录输出对应模块;如果是长文翻译类,则多次输入,或者拆解后多次调用API 解决办法是将任务分解成多次2019年2020年投入10亿手握万卡2022年3月GPT 3.5发布布局集卡补充1: ChatGPT需要上万张 NVIDIA A100显卡,国内主要玩家:百度、字节、腾讯、阿里、商汤、幻方补充2:nvidia官网 https://build.nvidia.com/explore/discoverV2 发布GPT 4o发布V3 发布2024年底2024年5月Llama-3.1发布2024年7月2025年1月31号R1 登录nvidia 官网DeepSeek 发展由来 来自杭州深度求索公司,系一家成立于2023年。使用数据蒸馏技术,得到更为精炼、有用的数据。由知名私募巨头幻方量化全资孕育而生,专注于开发先进的大语言模型(LLM)和相关技术。DeepSeek 为什么火: 一个足够优秀的模型变得人人免费拥有一、技术突破:为什么DeepSeek的模型值得关注?二、开源生态:DeepSeek如何改变开发者社区?三、行业落地:DeepSeek推动的技术范式迁移四、行业竞争格局:DeepSeek的“ 鲶鱼效应 ”1. 模型架构与训练效率优化架构改进:MLA多层注意力架构、FP8混合精度训练框架、DualPipe 跨节点通信训练策略:采用混合精度训练(BF16+FP8)和梯度累积策略2. 数据质量与领域适配数据筛选:多模态数据清洗领域微调:“领域渐进式微调”(Progressive Domain Fine-tuning)策略1. 开放模型与工具链全量开源:DeepSeek开源了完整训练代码、数据清洗Pipeline和领域微调工具包(如DeepSeek-Tuner),极大降低复现和二次开发门槛轻量化部署:提供模型压缩工具(如4-bit量化适配TensorRT-LLM)2. 社区驱动创新开发者基于DeepSeek模型快速构建垂直应用金融场景教育场景1. 从“通用模型”到“领域专家”传统大模型(如GPT-3.5)依赖Prompt Engineering适配行业需求,而DeepSeek通过预训练阶段嵌入领域知识,减少后期微调成本2. 成本革命通过模型压缩和高效推理框架,企业可基于单卡部署专业模型,推理成本降至GPT-4 API的1/50如:某电商客服系统用DeepSeek-7B替代GPT-4,单次交互成本从0.06降至0.001,日均处理量提升10倍。1. 倒逼闭源模型降价DeepSeek的开源策略迫使国际厂商调整定价。例如,Anthropic的Claude 3 Sonnet API价格在DeepSeek开源后下调2. 催化国产AI芯片生态DeepSeek与华为昇腾、寒武纪等厂商深度合作,优化模型在国产硬件的推理性能。例如,DeepSeek-7B在昇腾910上的吞吐量比A100高3. 推动AGI技术民主化中小企业和研究机构可基于开源模型快速迭代,无需依赖巨头API。例如,非洲某初创团队用DeepSeek-7B开发本地化农业咨询AI,成本仅为GPT-4方案的1/20技术挑战1.长上下文理解:目前最大支持32K tokens,相比Claude 100K仍有差距。2.多模态扩展:尚未开放图像-文本联合模型,需追赶GPT-4V、Gemini。商业化平衡开源模型可能导致企业版变现困难,需探索类似Red Hat的“开源+服务”模式。挑战及未来MLA多层注意力架构•原先:每一层有值且内存挨个计算•优化:前后合并,使用时再放到内存中FP8混合精度训练框架•原先:32位、16位•优化:•不该精确8位(近似值),需要精确还是32位•每128个位,交给会计总账合计保证精度Point1: 大大压缩计算量DualPipe 跨节点通信•原先:需要等前面stage完成才能干活•优化:优化为双路计算流水线,传输、计算同时进行•计算+50%、传输+20%无辅助损失的负载均衡策略•原先:每个worker干活一样•优化:均衡派单,保证worker有活干跨节点全对全通信内核Point2: 分布式并行提效Point3: 模型大、数全、偏科模型够大参数多•Llama3.1: 405 B•Deepseek:671 B数据全且精•优化:精选数据、清洗干净MTP技术(Multi-Token Prediction 多令牌预测)•传统:一次预测一个Token•优化:预测连续多个TokenR1蒸馏技术•R1推理模型,给出计算逻辑推理•V3提取推理思路+解题策略•用大模型指导小模型训练,降低推理成本DeepSeek 核心哪些创新大幅降低训练成本DeepSeek 核心技术架构1. 模型架构2. 核心技术突破多模态深度Transformer:支持文本、代码、数学符号的统一理解与生成动态稀疏激活机制:采用MoE(Mixture of Experts)架构,实现万亿参数级高效推理超长上下文建模:支持128K+ tokens窗口,精准捕捉长程依赖自研训练框架:融合高效分布式训练、混合精度优化与灾难性遗忘抑制技术强化学习对齐:

立即下载
信息科技
2025-02-26
23页
6.52M
收藏
分享

详解DeepSeek:模型训练优化及数据处理的技术精髓,点击即可下载。报告格式为PDF,大小6.52M,页数23页,欢迎下载。

本报告共23页,只提供前10页预览,清晰完整版报告请下载后查看,喜欢就下载吧!
立即下载
本报告共23页,只提供前10页预览,清晰完整版报告请下载后查看,喜欢就下载吧!
立即下载
水滴研报所有报告均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。
相关图表
同花顺盈利预测表(截至 2025 年 2 月 25 日收盘)
信息科技
2025-02-25
来源:2024年年报点评:市场活跃拉升整体业绩,AI B+C端产品力稳健提升
查看原文
同花顺 2024 年核心数据概览
信息科技
2025-02-25
来源:2024年年报点评:市场活跃拉升整体业绩,AI B+C端产品力稳健提升
查看原文
同花顺同创智能体接入 Deepseek
信息科技
2025-02-25
来源:2024年年报点评:市场活跃拉升整体业绩,AI B+C端产品力稳健提升
查看原文
“问财”深度思考
信息科技
2025-02-25
来源:2024年年报点评:市场活跃拉升整体业绩,AI B+C端产品力稳健提升
查看原文
2018-2024 年同花顺分类业务收入(单位:亿元)
信息科技
2025-02-25
来源:2024年年报点评:市场活跃拉升整体业绩,AI B+C端产品力稳健提升
查看原文
2020-2024 年同花顺合同负债及增速 图4:2018-2024 年同花顺销售、管理、研发费用率
信息科技
2025-02-25
来源:2024年年报点评:市场活跃拉升整体业绩,AI B+C端产品力稳健提升
查看原文
回顶部
报告群
公众号
小程序
在线客服
收起