2025 DeepSeek自学手册:从理论到实践

DeepSeek自学手ÝÐ理论ÿ模型¯ÿĀ到实践ÿ模型à用Ā作者:@ai呀蔡蔡ÿ全ⳳĀ\]Ā个人微信:doubletsai07,ÿ扫码交流,备注来意即ÿ0104020503DeepSeek V3和R1是怎N¯ÿû来的13个DeepSeek官方ð示词㚷例DeepSeek R1^ð示词的ÙPOÙDeepSeek实×à用场oDeepSeek R1四大使用技ÿContents目录06DeepSeekÿï方案ÿ在线&本地部署Ā注:`前手Ý的信息更新截至2025⳴2o10日01DeepSeek V3 和 R1是怎N¯ÿû来的@ai呀蔡蔡DeepSeek V3 是什N?DeepSeek V3 是一个强大的MoE语言模型ÿ非è理型模型Ā。它在数学、ï码等任áP吊打w它开源模型,甚至能和ý源大佬 GPT-4o、Claude-3.5-sonnet 掰手腕,但¯ÿ花的钱ßO到 600 万美元。注:MoE,全Ā是 Mixture-of-ExpeDžs,ÿ译p中文就是<混合_家=。你ÿñ把它想象p一个团队,à个团队Ýp很多_家,每个_家都p自ý的_长。`遇到一个þ题时,O是所p_家都一ĀP,而是㚹据þ题的类型,庉择Ā合庂的几个_家来解ô。à㚷O仅ð高了效率,ßð升了性能。初识 DeepSeek V3数据、Ā表源自:DeepSeek-V3 Technical RepoDž@ai呀蔡蔡DeepSeek V3 架构多 Token 预测 (MTP) 策略V3架构[新之一。`统模型一次预测1个词,DeepSeek V3\时预测多个词ÿ类似<预判Q一m=Ā,ð升数据利用效率,ß能à速生pMulti-Head Latent Attention (MLA)V3基础架构之一,在DeepSeek V2þ经验证p效。MLAÿ译p中文就是多头潜在注意力,`统模型è理时需缓`大量数据,MLA通过压缩键值üÿ类似<精简笔²=Ā减少内`s用,ÿñ¬模型在处理长文本时更高效。DeepSeekMoEV3基础架构之一,\㚷在DeepSeek V2þ经验证p效。DeepSeekMoE 在`统 MoE 的基础Pß行了多ù[新和_W,比如更精细的_家分ý、共ï_家等,庂配复g任á,ß而ð升模型的性能和计算效率。无朝外损耗的负载均衡前面DeepSeekMoE中ð到的多ù[新,w中就包括V3才èû的无朝外损耗的负载均衡。简单来说,在¯ÿ过程中,DeepSeekMoE a监ç每个_家的<ý作量=,ß而ú态调整_家使用频率,避免某ß_家<过õ=或<躺ⳳ=。01020304呀蔡蔡DeepSeek V3 ¯ÿm骤和数据使用无o注数据Ø预¯ÿ大模型基础大模型通用精调模型¯ÿ数据:相比V2,V3ð高了数学和编程㚷本的比例,\时扩展了除英语和中文之外的多语言覆盖范围预¯ÿÿ无监督学`Ā精调ÿ监督学`Ā精调ÿ强W学`Āè理数据:ü于数学、ï码、»辑è理等需要复gè理过程的任á,V3采用了基于 R1 生p的高质量è理数据非è理数据:ü于[意写作、角ò扮演、简单þ答等非è理类任á,Y用 V2.5 生p响à,并由人ýo注和校验基于规Y的奖ó模型:ü于ÿñ通过明确规Yß行判别的任á (例如数学题、编程题),采用基于规Y的奖ó模型基于模型的奖ó模型:ü于难ñ通过规Yß行判别的任á (例如开㎾式þ答、[意写作),Y采用基于模型的奖ó模型@ai呀蔡蔡DeepSeek V3 性能表Ā数据、Ā表源自:DeepSeek-V3 Technical RepoDž知识基准通用能力:MMLUÿ综合知识Ā、GPQAÿ博士ÿ难题Ā等测试中,超尊所p开源模型,接àGPT-4oÏ实性:中文Ï实þ答ÿC-SimpleQAĀ甚至超过ý源模型,英文略床于GPT-4oï码P数学ï码竞赛:LiveCodeBench榜首,碾压w他模型。数学è理:MATH-500等测试中,达到开源模型Ā高水ⳳ,部分超尊ý源模型。i呀蔡蔡DeepSeek R1 是什N?DeepSeek R1是一个强大的è理模型,擅长处理复g任á。它在数学、ï码、自然语言è理等任áP,性能比肩 OpenAI o1 k式x,小模型Y超尊 OpenAI o1-mini;语言能力在`前独一档。注:è理型模型ÿ如R1、o3Āa自ý画草稿纸分m骤思考,生p的内容xp较高的准确性和ÿ解释性ÿOï表没幻ÊĀ。非è理模型㚹据预定O的指ð和规Y来生p内容,就是<你说啥q做啥=,ÿ解释性较P。初识 DeepSeek R1数据、Ā表源自:DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning@ai呀蔡蔡DeepSeek R1 ¯ÿm骤DeepSeek V3 BaseDeepSeek R1DeepSeek R1 Zero~了解决R1-Zero的<⽑病=,DeepSeek团队ò了两招ÿ冷启动数据ÿ先给DeepSeekV3Base模型看⼏千条⼈⼯写的⾼质量推理⽰例ÿ⽐如ð细的解题p骤Ā,让它<开窍=Ā多阶段训练ÿ先⽤冷启动数据微调模型,再⽤强化学习进⼀p优化,最^结合w他任ó的数据ÿ⽐如写作1翻译Ā再训练,让模型既聪明⼜<会说⼈话=2跳过了监督微调ÿSFTĀ的过程,直接将强W学`ÿRLĀà用于基础模型,Ð而发展û DeepSeek-R1-Zeroÿaè理,`ûĀ<ÿ悟时刻=Ā但R1 Zeropß<毛病=,比如ÿ读性差、语言混合等,所ñ团队开始探索R1精调ÿ监督学`Ā精调ÿ强W学`Ā@ai呀蔡蔡DeepSeek R1 性能表Ā数据、Ā表源自:DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning知识基准通用能力:MMLUÿ综合知识Ā、GPQAÿ博士ÿ难题Ā等测试中,性能显著超尊了 DeepSeek-V3 模型PQ文理解:FRAMESÿ长PQ文理解ĀP,R1 _超尊了 V3 模型,展Āû强大的文档分析能力数学Pï码在 AIME 2024 ÿ美ÿ数学邀ÿ赛Ā、MATH-500 ÿ数学竞赛题Ā 和 Codeforces ÿ编程竞赛Ā等任áP,×得了P OpenAI-o1-1217 相媲美甚至超尊的p绩。搜索P数据分析在SimpleQAÿ事实基准ĀP,R1优于V32然⽽,R1在中⽂SimpleQA基准P的表Ā不如V3,^要是因~w在安全RLÿ强化学习Ā^倾向于拒ÿ回答某些查询ÿà就是⼤家提到的R1<敏感肌=Ā,尽管如o,R1表Ā出来的中⽂能⼒ß是独⼀档@ai呀蔡蔡DeepSeek R1 模型蒸馏DeepSeek 团队ß一m探索了将 R1 的è理能力<蒸馏=到更小模型中的ÿ能性。他们挑庉了 R1 生p的 800K 数据,ü Qwen 和 Llama 系W的多个小模型ß行了微调。<模型蒸馏=¬小模型在保c高性能的\时,更高效、更经o、更易于部署ÿà在第}部分a谈到Ā。注:<模型蒸馏=是一种在机器学`和深度学`中常用的技术,它的㚸心思想是将一个复g模型ÿ通常Ā~<教师模型=Ā的知识转移到一个更简单的模型ÿ通常Ā~<学生模型=Ā中。à个过程p点像<知识`ヿ=,¬一个经验丰富

立即下载
综合
2025-02-17
ai呀蔡蔡
73页
24.72M
收藏
分享

[ai呀蔡蔡]:2025 DeepSeek自学手册:从理论到实践,点击即可下载。报告格式为PDF,大小24.72M,页数73页,欢迎下载。

本报告共73页,只提供前10页预览,清晰完整版报告请下载后查看,喜欢就下载吧!
立即下载
本报告共73页,只提供前10页预览,清晰完整版报告请下载后查看,喜欢就下载吧!
立即下载
回顶部
报告群
公众号
小程序
在线客服
收起