DeepSeek:智能时代的全面到来和人机协作的新常态

DeepSeek智能时代的全面到来和人机协作的新常态孙凌云 教授计算机科学与技术学院2 0 2 5 年2月一、智能演变二、人机协作三、产业现状四、教育成长3维基百科书籍杂志期刊Reddit链接Common Crawl其他数据总计GPT-14.64.6GPT-24040GPT-311.42110150570753The Pile v1611824463227167825Megatron-11B11.44.638107161MT-NLG6.411877639831271374Gopher12.52100164.43450482310550从 2018 年的 GPT-1 到 2020 年的 GPT-3,模型预训练数据量从 4.6GB 增加到了 45TB45TB 相当于三千万本《西游记》主要模型数据集包括:- 维基百科数据集(庞大的客观知识)- 书籍(故事讲述能力与反应)- 杂志期刊(语言生成的严谨)- Github代码等其他数据(逻辑推理)GPT训练数据规模史无前例表:主要数据集大小汇总,以GB为单位。公开的数据集以粗体表示,确定的数据以斜体表示。Common Crawl数据集过滤之前为45T来源: OpenAI团队,Language Models are Few-Shot ,2022年7月22日4由AI (DeepSeek R1)搜集并整理,经人工检查对比维度GPT-3DeepSeek-V3发布时间2020年6月2024年12月训练数据量3000亿token14.8万亿token参数量175B(密集架构)671B(MoE架构)训练成本$12M$5.57M激活参数量175B(全激活)37B(5.5%激活率)主要数据类型通用互联网文本(含代码/数学)强化代码/数学的高质量数据官方来源OpenAI技术论文HuggingFace模型卡多媒体知识空间全体人类知识空间大模型知识空间个体知识空间观点来自:北京大学黄铁军教授 . 2023年3月31日大模型带来大知识三体人如何学习地球知识?三体人如何学习地球知识?电磁波探测器拯救派三体人如何学习地球知识?电磁波探测器拯救派地 球 文 明 信 息原 始 数 据 、 无 目 标 性探 测 器 搜 集 数 据 集精 准 观 察 、 查 漏 补 缺人 类 反 馈 实 现 对 齐动 态 反 馈 、 价 值 博 弈三体人如何学习地球知识?电磁波探测器拯救派地 球 文 明 信 息原 始 数 据 、 无 目 标 性探 测 器 搜 集 数 据 集精 准 观 察 、 查 漏 补 缺人 类 反 馈 实 现 对 齐动 态 反 馈 、 价 值 博 弈原 始 数 据 基 建定 向 能 力 强 化价 值 观 校 准三体人如何学习地球知识?电磁波探测器拯救派预 训 练P r e - t r a i n i n g监 督 微 调S u p e r v i s e d F i n e - T u n i n g ( S F T )人 类 反 馈 强 化 学 习R e i n f o r c e m e n t l e a r n i n g h u m a n f e e d b a c k ( R L H F )参考 GPT Assistant Training PipelineAndrej Karpathy. How to train your (Chat)GPT Assistant - An emerging recipe, 2023年5月25日三体人如何学习地球知识?电磁波探测器 + 拯救派基 础 模 型D e e p S e e k - V 3 - B a s e强 化 学 习R e i n f o r c e m e n t l e a r n i n g / G R P ODeepSeek-R1-Zero的训练过程结合准确性奖励(数学、编程等任务的可验证结果)和格式奖励(强制输出结构化标签),通过GRPO算法优化模型https://huggingface.co/papers/2501.12948 2025年1月22日三体人如何学习地球知识?电磁波探测器 + 拯救派基 础 模 型D e e p S e e k - V 3 - B a s e强 化 学 习R e i n f o r c e m e n t l e a r n i n g / G R P O数 学 题 自 动 判 分 / 编 程 题 实 战 演 练 / 阶 梯 进 化DeepSeek-R1-Zero的训练过程结合准确性奖励(数学、编程等任务的可验证结果)和格式奖励(强制输出结构化标签),通过GRPO算法优化模型https://huggingface.co/papers/2501.12948 2025年1月22日14<think> </think> 标签内是推理过程<answer> </answer> 是最终内容为强制思考,模型第一个输出单词必定为<think> 强制输出过程A conversation between User and Assistant. The user asks a question, and the Assistant solves it. The assistant first thinks about the reasoning process in the mind and then provides the user with the answer. The reasoning process and answer are enclosed within <think> </think> and <answer> </answer> tags, respectively, i.e., <think> reasoning process here </think> <answer> answer here </answer>. 这是用户和助手之间的对话。用户提出一个问题,助手解决它。助手首先在脑海中思考推理过程,然后为用户提供答案。推理过程和答案分别包含在 <思考></ 思考 > 和 < 回答 ></ 回答 > 标签中。即: < 思考 > 推理过程在这里 </ 思考 >< 回答 > 在这里回答 </ 回答 >https://huggingface.co/papers/2501.12948 2025年1月22日DeepSeek-R1-Zero的训练过程结合准确性奖励(数学、编程等任务的可验证结果)和格式奖励(强制输出结构化标签),通过GRPO强化学习策略后训练V3模型https://huggingface.co/papers/2501.12948 2025年1月22日Aha moment 顿悟时刻人类长期思考后的灵感闪现 强化学习中的奖励信号引导DeepSeek-R1-Zero的训练过程结合准确性奖励(数学、编程等任务的可验证结果)和格式奖励(强制输出结构化标签),通过GRPO强化学习策略后训练V3模型https://huggingface.co/papers/2501.12948 2025年1月22日Aha moment 顿悟时刻人类长期思

立即下载
信息科技
2025-03-05
浙江大学
孙凌云
71页
13.72M
收藏
分享

[浙江大学]:DeepSeek:智能时代的全面到来和人机协作的新常态,点击即可下载。报告格式为PDF,大小13.72M,页数71页,欢迎下载。

本报告共71页,只提供前10页预览,清晰完整版报告请下载后查看,喜欢就下载吧!
立即下载
本报告共71页,只提供前10页预览,清晰完整版报告请下载后查看,喜欢就下载吧!
立即下载
水滴研报所有报告均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。
相关图表
CoreWeave 服务框架
信息科技
2025-03-05
来源:电子行业动态点评:CoreWeave深度融入英伟达生态,加速全球扩张,全力备战IPO
查看原文
CoreWeave 股权架构与融资历史
信息科技
2025-03-05
来源:电子行业动态点评:CoreWeave深度融入英伟达生态,加速全球扩张,全力备战IPO
查看原文
CoreWeave 数据中心分布图与 GPU 租赁价格
信息科技
2025-03-05
来源:电子行业动态点评:CoreWeave深度融入英伟达生态,加速全球扩张,全力备战IPO
查看原文
可比公司估值表
信息科技
2025-03-05
来源:国产传感器龙头,平台化技术构筑新增长极
查看原文
安培龙盈利预测(以 2023 年年报口径为准)
信息科技
2025-03-05
来源:国产传感器龙头,平台化技术构筑新增长极
查看原文
公司已披露四个六维力传感器相关专利
信息科技
2025-03-05
来源:国产传感器龙头,平台化技术构筑新增长极
查看原文
回顶部
报告群
公众号
小程序
在线客服
收起