DeepSeek技术溯源及前沿探索

1浙江大学DS系列专题主讲人:朱强浙江大学计算机科学与技术学院人工智能省部共建协同创新中心(浙江大学)https://person.zju.edu.cn/zhuqDeepSeek技术溯源及前沿探索浙江大学人工智能教育教学研究中心学研究中心能教育教学研究中心浙江大学人工智能教育教学研究中心浙江大学人工智能教育教学研究中心浙江大学人工智能浙江大学人2一、语言模型三、ChatGPTOutline四、DeepSeek五、新一代智能体二、Transformer浙江大学人工智能教育教学研究中心学研究中心能教育教学研究中心浙江大学人工智能教育教学研究中心浙江大学人工智能教育教学研究中心浙江大学人工智能浙江大学人3Language Modeling对于任意的词序列,计算出这个序列是一句话的概率我们每天都和语言模型打交道:I saw a catI saw a cat on the chairI saw a cat running after a dogI saw a cat in my dreamI saw a cacar语言模型:终极目标浙江大学人工智能教育教学研究中心学研究中心能教育教学研究中心浙江大学人工智能教育教学研究中心浙江大学人工智能教育教学研究中心浙江大学人工智能浙江大学人4Sheismymom1000010000100001One-hot Encoding只有一个1,其余均为0One-hot Encoding有什么缺点吗?编码:让计算机理解人类语言语言模型:基本任务浙江大学人工智能教育教学研究中心学研究中心能教育教学研究中心浙江大学人工智能教育教学研究中心浙江大学人工智能教育教学研究中心浙江大学人工智能浙江大学人50.990.990.050.1…0.990.050.930.09…0.020.010.990.98…0.980.020.940.3…鲸鱼海豚鹦鹉企鹅游泳飞翔Word Embedding用一个低维的词向量表示一个词能使距离相近的向量对应的物体有相近的含义20维的向量用one-hot和word embedding的方法分别可以表示多少单词?编码:让计算机理解人类语言浙江大学人工智能教育教学研究中心学研究中心能教育教学研究中心浙江大学人工智能教育教学研究中心浙江大学人工智能教育教学研究中心浙江大学人工智能浙江大学人6Word Embedding结合句子语境我们可以猜测:tezgüino是一种由玉米制作的酒精类饮料 A bottle of tezgüino is on the table. Everyone likes tezgüino. Tezgüino makes you drunk. We make tezgüino out of corn.(1) A bottle of _____ is on the table.(2) Everyone likes _____.(3) _____ makes you drunk.(4) We make _____ out of corn.(1) (2) (3) (4) 1 1 1 1 1 0 0 0 0 1 0 1 1 1 1 0 tezgüinomotor oiltortillaswine两行内容十分相近两个单词含义相近编码:让计算机理解人类语言浙江大学人工智能教育教学研究中心学研究中心能教育教学研究中心浙江大学人工智能教育教学研究中心浙江大学人工智能教育教学研究中心浙江大学人工智能浙江大学人7基于统计的N-gram ( 1970 after)语言模型:技术演化Before:P(小) · P (猫|小) · P (抓|小猫) · P (老|小猫抓) · P (鼠|小猫抓老)3-gram:P(小) · P (猫|小) · P (抓|小猫) · P (老|猫抓) · P (鼠|抓老) 2-gram:P(小) · P (猫|小) · P (抓|猫) · P (老|抓) · P (鼠|老) Transformer (2017 after)基于神经网络的LSTM/GRU (2000 after)浙江大学人工智能教育教学研究中心学研究中心能教育教学研究中心浙江大学人工智能教育教学研究中心浙江大学人工智能教育教学研究中心浙江大学人工智能浙江大学人8常见的深度学习模型框架,可用于解决 Seq2Seq 问题可以根据任务选择不同的编码器和解码器(LSTM/GRU/Transformer)EncoderDecoder我 很 聪 明 !I am pretty smart!隐空间RepresentationEncoder-Decoder浙江大学人工智能教育教学研究中心学研究中心能教育教学研究中心浙江大学人工智能教育教学研究中心浙江大学人工智能教育教学研究中心浙江大学人工智能浙江大学人9一、语言模型三、ChatGPTOutline四、DeepSeek五、新一代智能体二、Transformer浙江大学人工智能教育教学研究中心学研究中心能教育教学研究中心浙江大学人工智能教育教学研究中心浙江大学人工智能教育教学研究中心浙江大学人工智能浙江大学人10Transformer:理论架构创新•自注意力机制:支持并行计算/全局上下文的理解能力•多头注意力:从多个角度捕捉复杂的语义关系•前馈网络/位置编码/层归一化:解决了传统模型的诸多局限性大型语言模型简史2017JUN1958Transformer2018JUNGPT2018OCTBERT2019FEBGPT-22019OCTT52020MAYGPT-32021SEPFLAN2022MARGPT-3.5InstrutGPT2022NOVChatGPT2023FEBLLaMA2023MARGPT-42024MARGPT-4o2024APRLLaMA-3.1405B2024DECOpenAI-o1DeepSeek-V32025JANDeepSeek-R1https://blog.csdn.net/cf2SudS8x8F0v/article/details/145695146OpenAI-o3浙江大学人工智能教育教学研究中心学研究中心能教育教学研究中心浙江大学人工智能教育教学研究中心浙江大学人工智能教育教学研究中心浙江大学人工智能浙江大学人11NIPS 2017,引用量15万+引入全新注意力机制,改变了深度学习模型的处理方式EncoderDecoderTransformer : 大模型的技术基座Attention Is All You Need浙江大学人工智能教育教学研究中心学研究中心能教育教学研究中心浙江大学人工智能教育教学研究中心浙江大学人工智能教育教学研究中心浙江大学人工智能浙江大学人12Transformer :(自)注意力机制在理解语言任务时,Attention 机制本质上是捕捉单词间的关系The animal didn't cross the street because it was too tired/wideShe is eating a green apple.中国 南北 饮食文化 存在差异 ,豆

立即下载
综合
2025-03-25
浙江大学
50页
4.58M
收藏
分享

[浙江大学]:DeepSeek技术溯源及前沿探索,点击即可下载。报告格式为PDF,大小4.58M,页数50页,欢迎下载。

本报告共50页,只提供前10页预览,清晰完整版报告请下载后查看,喜欢就下载吧!
立即下载
本报告共50页,只提供前10页预览,清晰完整版报告请下载后查看,喜欢就下载吧!
立即下载
水滴研报所有报告均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。
相关图表
图表 3-5. 不同市场交通运输行业指数估值(PE)对比
综合
2025-03-25
来源:交通运输行业周报:1-2月干散货船新船订单量降至近年低位,2月快递业务完成同比增长58.8%
查看原文
图表 3-4.交通运输子行业估值(PE)对比
综合
2025-03-25
来源:交通运输行业周报:1-2月干散货船新船订单量降至近年低位,2月快递业务完成同比增长58.8%
查看原文
图表 3-3. 交通运输行业与其他行业估值(PE)对比
综合
2025-03-25
来源:交通运输行业周报:1-2月干散货船新船订单量降至近年低位,2月快递业务完成同比增长58.8%
查看原文
图表 3-2. 交通运输行业估值(PE)及溢价情况
综合
2025-03-25
来源:交通运输行业周报:1-2月干散货船新船订单量降至近年低位,2月快递业务完成同比增长58.8%
查看原文
图表 3-1. 2022 年初以来交通运输各子行业表现
综合
2025-03-25
来源:交通运输行业周报:1-2月干散货船新船订单量降至近年低位,2月快递业务完成同比增长58.8%
查看原文
图表 2-55. 理想汽车销售数据(月) 图表 2-56. 联想 PC 出货量(季)
综合
2025-03-25
来源:交通运输行业周报:1-2月干散货船新船订单量降至近年低位,2月快递业务完成同比增长58.8%
查看原文
回顶部
报告群
公众号
小程序
在线客服
收起