DeepSeek：智能时代的全面到来和人机协作的新常态

DeepSeek智能时代的全面到来和人机协作的新常态孙凌云教授计算机科学与技术学院2 0 2 5 年2月一、智能演变二、人机协作三、产业现状四、教育成长3维基百科书籍杂志期刊Reddit链接Common Crawl其他数据总计GPT-14.64.6GPT-24040GPT-311.42110150570753The Pile v1611824463227167825Megatron-11B11.44.638107161MT-NLG6.411877639831271374Gopher12.52100164.43450482310550从 2018 年的 GPT-1 到 2020 年的 GPT-3，模型预训练数据量从 4.6GB 增加到了 45TB45TB 相当于三千万本《西游记》主要模型数据集包括：- 维基百科数据集（庞大的客观知识）- 书籍（故事讲述能力与反应）- 杂志期刊（语言生成的严谨）- Github代码等其他数据（逻辑推理）GPT训练数据规模史无前例表：主要数据集大小汇总，以GB为单位。公开的数据集以粗体表示，确定的数据以斜体表示。Common Crawl数据集过滤之前为45T来源： OpenAI团队，Language Models are Few-Shot ，2022年7月22日4由AI （DeepSeek R1）搜集并整理，经人工检查对比维度GPT-3DeepSeek-V3发布时间2020年6月2024年12月训练数据量3000亿token14.8万亿token参数量175B（密集架构）671B（MoE架构）训练成本$12M$5.57M激活参数量175B（全激活）37B（5.5%激活率）主要数据类型通用互联网文本（含代码/数学）强化代码/数学的高质量数据官方来源OpenAI技术论文HuggingFace模型卡多媒体知识空间全体人类知识空间大模型知识空间个体知识空间观点来自：北京大学黄铁军教授 . 2023年3月31日大模型带来大知识三体人如何学习地球知识？三体人如何学习地球知识？电磁波探测器拯救派三体人如何学习地球知识？电磁波探测器拯救派地球文明信息原始数据、无目标性探测器搜集数据集精准观察、查漏补缺人类反馈实现对齐动态反馈、价值博弈三体人如何学习地球知识？电磁波探测器拯救派地球文明信息原始数据、无目标性探测器搜集数据集精准观察、查漏补缺人类反馈实现对齐动态反馈、价值博弈原始数据基建定向能力强化价值观校准三体人如何学习地球知识？电磁波探测器拯救派预训练P r e - t r a i n i n g监督微调S u p e r v i s e d F i n e - T u n i n g ( S F T )人类反馈强化学习R e i n f o r c e m e n t l e a r n i n g h u m a n f e e d b a c k ( R L H F )参考 GPT Assistant Training PipelineAndrej Karpathy. How to train your (Chat)GPT Assistant - An emerging recipe, 2023年5月25日三体人如何学习地球知识？电磁波探测器 + 拯救派基础模型D e e p S e e k - V 3 - B a s e强化学习R e i n f o r c e m e n t l e a r n i n g / G R P ODeepSeek-R1-Zero的训练过程结合准确性奖励（数学、编程等任务的可验证结果）和格式奖励（强制输出结构化标签），通过GRPO算法优化模型https://huggingface.co/papers/2501.12948 2025年1月22日三体人如何学习地球知识？电磁波探测器 + 拯救派基础模型D e e p S e e k - V 3 - B a s e强化学习R e i n f o r c e m e n t l e a r n i n g / G R P O数学题自动判分 / 编程题实战演练 / 阶梯进化DeepSeek-R1-Zero的训练过程结合准确性奖励（数学、编程等任务的可验证结果）和格式奖励（强制输出结构化标签），通过GRPO算法优化模型https://huggingface.co/papers/2501.12948 2025年1月22日14<think> </think> 标签内是推理过程<answer> </answer> 是最终内容为强制思考，模型第一个输出单词必定为<think> 强制输出过程A conversation between User and Assistant. The user asks a question, and the Assistant solves it. The assistant first thinks about the reasoning process in the mind and then provides the user with the answer. The reasoning process and answer are enclosed within <think> </think> and <answer> </answer> tags, respectively, i.e., <think> reasoning process here </think> <answer> answer here </answer>. 这是用户和助手之间的对话。用户提出一个问题，助手解决它。助手首先在脑海中思考推理过程，然后为用户提供答案。推理过程和答案分别包含在 <思考></ 思考 > 和 < 回答 ></ 回答 > 标签中。即： < 思考 > 推理过程在这里 </ 思考 >< 回答 > 在这里回答 </ 回答 >https://huggingface.co/papers/2501.12948 2025年1月22日DeepSeek-R1-Zero的训练过程结合准确性奖励（数学、编程等任务的可验证结果）和格式奖励（强制输出结构化标签），通过GRPO强化学习策略后训练V3模型https://huggingface.co/papers/2501.12948 2025年1月22日Aha moment 顿悟时刻人类长期思考后的灵感闪现强化学习中的奖励信号引导DeepSeek-R1-Zero的训练过程结合准确性奖励（数学、编程等任务的可验证结果）和格式奖励（强制输出结构化标签），通过GRPO强化学习策略后训练V3模型https://huggingface.co/papers/2501.12948 2025年1月22日Aha moment 顿悟时刻人类长期思

立即下载

信息科技

2025-03-05

浙江大学

孙凌云

71页

13.72M

[浙江大学]:DeepSeek：智能时代的全面到来和人机协作的新常态，点击即可下载。报告格式为PDF，大小13.72M，页数71页，欢迎下载。

本报告共71页，只提供前10页预览，清晰完整版报告请下载后查看，喜欢就下载吧！

立即下载

本报告共71页，只提供前10页预览，清晰完整版报告请下载后查看，喜欢就下载吧！

立即下载

水滴研报所有报告均是客户上传分享，仅供网友学习交流，未经上传用户书面授权，请勿作商用。

DeepSeek：智能时代的全面到来和人机协作的新常态

关于我们

联系我们

DeepSeek：智能时代的全面到来和人机协作的新常态

关于我们

联系我们

小程序

公众号