2025我们该如何看待DeepSeek——what, how, why, and next
我们该如何看待DeepSeek——what, how, why, and next?陈果湖南大学信息科学与工程学院教授国家超级计算长沙中心常务副主任声明:1. 仅代表个人观点,不代表任何机构立场;2. 面向不具备AI专业知识背景的群体,为保持易懂性简化了很多技术细节,且不求涵盖所有方面;3. 主要以R1模型视角讲解,其他模型在第三大块有简要介绍;4. 受个人研究领域及认知水平所限,难免有疏漏或偏颇之处,欢迎批评指正。提纲◼ What is it:DeepSeek是什么 从ChatGPT到DeepSeek-R1,TA到底厉害在哪里? DeepSeek基本概念(用户角度)◼ How to use it:我能用DeepSeek干什么 以小见大,掌握思维方法 正确理解,打开广阔天地◼ Why it works: DeepSeek背后的原理 Transformer——大模型基础 DeepSeek模型的发展历程◼ Next: 下一步要关注什么 生态的爆发就在眼前,整个链条上哪些方面值得关注2提纲◼ What is it:DeepSeek是什么 从ChatGPT到DeepSeek-R1,TA到底厉害在哪里? DeepSeek基本概念(用户角度)◼ How to use it:我能用DeepSeek干什么 以小见大,掌握思维方法 正确理解,打开广阔天地◼ Why it works: DeepSeek背后的原理 Transformer——大模型基础 DeepSeek模型的发展历程◼ Next: 下一步要关注什么 生态的爆发就在眼前,整个链条上哪些方面值得关注3从ChatGPT开始4故事从ChatGPT说起5◼ ChatGPT的诞生在全球范围内引爆人工智能(AI) 相当数量的人(圈内人、技术潮人为主)开始切身感受到AI带来的巨大冲击https://www.thepaper.cn/newsDetail_forward_21909720https://blog.csdn.net/qq_73332379/article/details/129861428https://medium.com/@lmpo/大型语言模型简史-从transformer-2017到deepseek-r1-2025-cc54d658fb432022年11月30日OpenAI发布对话式AI模型ChatGPT两个月用户破亿ChatGPT背后的方法6◼ 生成式人工智能(AIGC)和大语言模型(LLM,也简称大模型)Chat GPT用于聊天、对话Generative生成式,模型的输出方式Pre-trained预训练,模型的制造方法Transformer模型结构生成式人工智能(AIGC)支撑实现大语言模型(LLM)技术原理ChatGPT真正做的事:文字接龙7https://speech.ee.ntu.edu.tw/~hylee/index.phpChatGPT真正做的事:文字接龙8https://speech.ee.ntu.edu.tw/~hylee/index.php输出又送回输入,不断迭代接龙输出又送回输入,不断迭代接龙ChatGPT真正做的事:文字接龙9https://speech.ee.ntu.edu.tw/~hylee/index.phpChatGPT真正做的事:文字接龙10https://speech.ee.ntu.edu.tw/~hylee/index.php◼ 这就是为啥LLM经常出现“幻觉”LLM怎么学习文字接龙?11https://speech.ee.ntu.edu.tw/~hylee/index.php人们开始相信AI会真正变革我们的生活12◼ChatGPT可以自然对话、精准问答,生成代码、邮件、论文、小说。。。• 写一篇信创产业的研究报告• 用鲁迅口吻写篇“长沙春天”的散文• 用C++写一段爬虫代码• 翻译• 心理咨询建议• 代码阅读理解和DEBUG从ChatGPT到OpenAI O系列13推理大模型开始走入视野:OpenAI o1◼ 2024年9月12日,OpenAI官方宣布了OpenAI o1推理大模型。◼ OpenAI宣称OpenAI o1大模型推理(Reasoning)能力相比较当前的大语言模型(GPT-4o)有了大幅提升。由于OpenAI o1模型的训练使用了一种新的AI训练方法,强调了“思维链”过程和强化学习的重要性,最终导致它在数学逻辑和推理方面有了大幅提升,大家开始称这里有思考过程的大模型为推理大模型。14什么是推理模型15普通模型和推理模型的对比https://newsletter.maartengrootendorst.com/p/a-visual-guide-to-reasoning-llms什么是推理模型16一个推理案例https://newsletter.maartengrootendorst.com/p/a-visual-guide-to-reasoning-llms推理模型和非推理模型的区别非推理模型直接生成答案17推理模型和非推理模型的区别18推理模型一步一步推导推理模型在一些领域优势明显19◼ 数学、代码、逻辑等领域优势明显美国数学邀请赛编程竞赛平台生物物理化学难题数据集◼ 还有算力scaling方面的独特优势,后面再说DeepSeek R1厉害在哪里此处仅介绍一部分,DeepSeek带来的更多的意义和启示在最后一章20DeepSeek R1的意义1. 首个展示思维链过程的推理模型21DeepSeek R1的意义2. 价格“屠夫”网页聊天免费曾经:o1模型的API价格为每百万输入tokens 约为15美元(约合人民币55元),每百万输出tokens 60美元(约合人民币438元)网页聊天也需要240美金/年的会员才能用22DeepSeek R1的意义3.首个开源的推理模型!下载模型,可以本地安装,本地使用!https://deepseek.hnu.edu.cn/23DeepSeek R1的意义4.纯国产!技术创新!训练和推理高效5.性能领先!24DeepSeek R1的最大意义25DeepSeek R1让最前沿的大模型技术走入寻常百姓家,所有人(尤其是所有中国人)都能直接体验。7天用户破亿!这还不包括海量本地部署的用户量变带来质变!以前AI是“菁英游戏”,现在AI可以是“人民战争”!我国是这个量变(和即将到来的质变)的驱动源、主导者和聚集地!DeepSeek基本概念(用户角度)更详细的原理在第三部分介绍26在哪里能用到DeepSeek?27各种网上的服务!官方的、其他企业的还有很多,不一一列举。。。本地自己搭一套!https://deepseek.hnu.edu.cn/信息传到外面不放心?外面的服务老是资源不足?有些内容不能生成?用我们自己搭的!调用DeepSeek服务的流程:普通调用◼ 模型的回答全部来自训练时的数据◼ 数据难以及时更新 以DeepSeek为例,其训练数据为24年7月之前网页调用程序API调用大模型(LLM)调用DeepSeek服务的流程:文件和联网搜索(RAG)◼ 模型的回答来自训练时的数据+外部数据◼ 外部数据可以及时更新 比如上传的文件
[湖南大学]:2025我们该如何看待DeepSeek——what, how, why, and next,点击即可下载。报告格式为PDF,大小4.21M,页数82页,欢迎下载。