DeepSeek:智能时代的全面到来和人机协作的新常态
DeepSeek智能时代的全面到来和人机协作的新常态孙凌云 教授计算机科学与技术学院2 0 2 5 年2月一、智能演变二、人机协作三、产业现状四、教育成长3维基百科书籍杂志期刊Reddit链接Common Crawl其他数据总计GPT-14.64.6GPT-24040GPT-311.42110150570753The Pile v1611824463227167825Megatron-11B11.44.638107161MT-NLG6.411877639831271374Gopher12.52100164.43450482310550从 2018 年的 GPT-1 到 2020 年的 GPT-3,模型预训练数据量从 4.6GB 增加到了 45TB45TB 相当于三千万本《西游记》主要模型数据集包括:- 维基百科数据集(庞大的客观知识)- 书籍(故事讲述能力与反应)- 杂志期刊(语言生成的严谨)- Github代码等其他数据(逻辑推理)GPT训练数据规模史无前例表:主要数据集大小汇总,以GB为单位。公开的数据集以粗体表示,确定的数据以斜体表示。Common Crawl数据集过滤之前为45T来源: OpenAI团队,Language Models are Few-Shot ,2022年7月22日4由AI (DeepSeek R1)搜集并整理,经人工检查对比维度GPT-3DeepSeek-V3发布时间2020年6月2024年12月训练数据量3000亿token14.8万亿token参数量175B(密集架构)671B(MoE架构)训练成本$12M$5.57M激活参数量175B(全激活)37B(5.5%激活率)主要数据类型通用互联网文本(含代码/数学)强化代码/数学的高质量数据官方来源OpenAI技术论文HuggingFace模型卡多媒体知识空间全体人类知识空间大模型知识空间个体知识空间观点来自:北京大学黄铁军教授 . 2023年3月31日大模型带来大知识三体人如何学习地球知识?三体人如何学习地球知识?电磁波探测器拯救派三体人如何学习地球知识?电磁波探测器拯救派地 球 文 明 信 息原 始 数 据 、 无 目 标 性探 测 器 搜 集 数 据 集精 准 观 察 、 查 漏 补 缺人 类 反 馈 实 现 对 齐动 态 反 馈 、 价 值 博 弈三体人如何学习地球知识?电磁波探测器拯救派地 球 文 明 信 息原 始 数 据 、 无 目 标 性探 测 器 搜 集 数 据 集精 准 观 察 、 查 漏 补 缺人 类 反 馈 实 现 对 齐动 态 反 馈 、 价 值 博 弈原 始 数 据 基 建定 向 能 力 强 化价 值 观 校 准三体人如何学习地球知识?电磁波探测器拯救派预 训 练P r e - t r a i n i n g监 督 微 调S u p e r v i s e d F i n e - T u n i n g ( S F T )人 类 反 馈 强 化 学 习R e i n f o r c e m e n t l e a r n i n g h u m a n f e e d b a c k ( R L H F )参考 GPT Assistant Training PipelineAndrej Karpathy. How to train your (Chat)GPT Assistant - An emerging recipe, 2023年5月25日三体人如何学习地球知识?电磁波探测器 + 拯救派基 础 模 型D e e p S e e k - V 3 - B a s e强 化 学 习R e i n f o r c e m e n t l e a r n i n g / G R P ODeepSeek-R1-Zero的训练过程结合准确性奖励(数学、编程等任务的可验证结果)和格式奖励(强制输出结构化标签),通过GRPO算法优化模型https://huggingface.co/papers/2501.12948 2025年1月22日三体人如何学习地球知识?电磁波探测器 + 拯救派基 础 模 型D e e p S e e k - V 3 - B a s e强 化 学 习R e i n f o r c e m e n t l e a r n i n g / G R P O数 学 题 自 动 判 分 / 编 程 题 实 战 演 练 / 阶 梯 进 化DeepSeek-R1-Zero的训练过程结合准确性奖励(数学、编程等任务的可验证结果)和格式奖励(强制输出结构化标签),通过GRPO算法优化模型https://huggingface.co/papers/2501.12948 2025年1月22日14<think> </think> 标签内是推理过程<answer> </answer> 是最终内容为强制思考,模型第一个输出单词必定为<think> 强制输出过程A conversation between User and Assistant. The user asks a question, and the Assistant solves it. The assistant first thinks about the reasoning process in the mind and then provides the user with the answer. The reasoning process and answer are enclosed within <think> </think> and <answer> </answer> tags, respectively, i.e., <think> reasoning process here </think> <answer> answer here </answer>. 这是用户和助手之间的对话。用户提出一个问题,助手解决它。助手首先在脑海中思考推理过程,然后为用户提供答案。推理过程和答案分别包含在 <思考></ 思考 > 和 < 回答 ></ 回答 > 标签中。即: < 思考 > 推理过程在这里 </ 思考 >< 回答 > 在这里回答 </ 回答 >https://huggingface.co/papers/2501.12948 2025年1月22日DeepSeek-R1-Zero的训练过程结合准确性奖励(数学、编程等任务的可验证结果)和格式奖励(强制输出结构化标签),通过GRPO强化学习策略后训练V3模型https://huggingface.co/papers/2501.12948 2025年1月22日Aha moment 顿悟时刻人类长期思考后的灵感闪现 强化学习中的奖励信号引导DeepSeek-R1-Zero的训练过程结合准确性奖励(数学、编程等任务的可验证结果)和格式奖励(强制输出结构化标签),通过GRPO强化学习策略后训练V3模型https://huggingface.co/papers/2501.12948 2025年1月22日Aha moment 顿悟时刻人类长期思
[浙江大学]:DeepSeek:智能时代的全面到来和人机协作的新常态,点击即可下载。报告格式为PDF,大小13.72M,页数71页,欢迎下载。