大模型能力技术培训(205页PPT)

大模型能力技术培训让数据智能像水电 样简单语言模型发展历程• 上世纪90年代: 语言模型出现, 统计学方法, 使用前面的词预测下一个词• 2003年: Bengio 《A Neural Probabilistic Language Model》 , 首度将深度学习思想融入语言模型• 2018年: Google提出Transformer神经网络架构, 并通过大量文本训练理解语言规则和模式大语言模型: 包含百亿或更多参数的语言模型• 国外: GPT-3 (175B) 、 GPT-4 、 PaLM (540B) 、 Galactica 和 LLaMA 等• 国内: Chat GLM 、 文心一言 、 通义千问 、 讯飞星火等• 大语言模型和小语言模型 (如GPT2) 采用相似的架构和预训练任务, 但是能力截然不同 (涌现能力)• 涌现能力使得大语言模型只使用很少的样本就可以处理全新的任务参考文献: https://arxiv.org/abs/2303.18223对技术领域的影响• 自然语言处理: 理解和生成文本, 意图理解 、 写文章 、 回答问题 、翻译等等• 信息检索: 智能检索, 改进搜索引擎• 计算机视觉: 文生图 、 多模态交互对商业领域的影响• AI Agent: 数字人 、个人智能助理 、 情感分析师 、 口语陪练 、 智能运营助手, 等等• 通用人工智能AGI: 大语言模型是AGI的早期形式, 引发了对未来人工智能发展的思考和规划参考文献: https://arxiv.org/abs/2303.18223涌现能力• 上下文学习的能力: GPT3首次引入, instruction + few shot learning, 无需额外训练和参数更新• 指令遵循: 可以使用指令进行微调, 在同样使用指令形式化描述的未见过的任务上表现良好• 逐步推理:“思维链”推理策略, 可以利用包含中间推理步骤的提示机制来解决复杂推理任务作为基座模型支持多元应用的能力• 全新的AI范式, 借助于海量无标注数据的训练, 获得可以适用于大量下游任务的统一大模型• 可以缩短每个具体应用的开发周期, 人力投入, 也可以基于大模型的推理 、 常识和写作能力, 获得更好 的应用效果支持对话作为统一入口的能力• Conversation as a Platform (陆奇, 2016) , 以对话形态完成各种各样的任务参考文献: https://xueqiu.com/1389978604/248392718• 巨大的规模: 十亿到万亿, 能够捕捉更多的语言知识和复杂的语法结构• 预训练和微调: 先用无标签数据在大规模文本上预训练, 再用有标签数据微调特殊任务• 上下文感知: 能够理解和生成依赖于前文的文本内容 。在对话 、 文章生成和情境理解方面表现出色• 多语言支持: 可以构建跨文言和跨文化的应用• 多模态支持: 文本 、 图像 、 语音• 涌现能力: 能用更少的数据处理更复杂的任务• 多领域应用: 文本生成 、 自动翻译 、信息检索 、 摘要生成 、 聊天机器人 、 虚拟助手等等• 伦理和风险问题: 生成有害内容 、 隐私问题 、 认知偏差等, 这是需要重点解决的问题• 幻象 、 资源消耗 、 推理速度参考文献: https://arxiv.org/abs/2303.18223语言模型( Language Model, LM) 目标是建模自然语言的概率分布词汇表 V 上的语言模型由函数 P(w1w2...wm) 表示, 表示词序列w1w2...wm作为一个句子出现的可能性大小 。 对于任意词串 w1w2...wm ∈ V+, 则有 P (w1w2...wm ) = 0, 并且对于所有词串, 函数 P (w1w2...wm ) 满足归 一化条件:由于联合概率 P (w1w2...wm ) 的参数量十分巨大, 直接计算 P (w1w2...wm ) 非常困难 。如果把w1w2...wm看 作一个变量, 那么它具有 |V|m 种可能 。按照《现代汉语词典(第七版) 》包含7万词条, 句子长度按照20个词计算, 模型参数量达到7.9792* 1096 的天文数字 。由此, w1w2...wm 的生成过程可以看作单词逐个生成的过程 。首先生成 w1, 之后根据 w1 生成 w2, 再根据 w1 和 w2 生成 w3, 以此类推 ,根据前 m − 1 个单词生成最后一个单词 wm为了减少 P (w1w2...wm ) 模型参数量, 可以利用句子序列通常情况下从左至右的生成过程进行分解, 使用链式法则得到:其中, 词 wi 出现的概率受它前面的 i − 1 个词 w1w2...wi−1 影响, 我们将这 i − 1 个词 w1w2...wi−1称之为词 wi的历史 。 如果历史单词有i − 1 个, 那么可能的单词组合就有 |V|i−1 种 。 最简单的根据语料库对 P (wi|w1w2...wi−1) 进行估计的方法是基于词序列在语料中出现次数 (也称为频次) 的方法:语言模型通常用于反映一个句子出现的可能性, 给定由单词序列w1w2...w n组成的句子S, 可以利用语言的特性, 使用链式法分解则得到:满足上述条件的模型被称为n元语法或n元文法(n-gram) 模型 。其中 n-gram 表示 n 个连续单词构成的单元, 也被称为n元语法单元 。以二元语法为例, 一个词的概率只依赖于前一个词, 则句子 S 的出现概率可以表示为:随着历史单词数量增多, 绝大多数的历史并不会在训练数据中出现, 这也意味着P (wi |w1w2...wi−1) 就很可能为 0, 使得概率估计失去了意义 。为了解决上述问题, 可以进一步假设任意单 词 wi 出现的概率只与过去 n − 1 个词相关n元语言模型从整体上来看与训练语料规模和模型的阶数有较大的关系, 不同的平滑算法在不同情况下的表现有较大的差距 。平滑算法虽然较好解决了零概率问题, 但是基于稀疏表示的n元语言模型仍然有三个较为明显的缺点:( 1 )无法建模长度超过n的上下文;( 2 )依赖人工设计规则的平滑技术;( 3 )当n增大时, 数据的稀疏性随之增大, 模型的参数量更是指数级增加, 并且模型受到数据稀疏问题的 影响, 其参数难以被准确学习 。此外, n元文法中单词的离散表示也忽略了单词之间的相似性词的独热编码被映射为一个低维稠密的实数向量, 称为词向量( Word Embedding) 。循环神经网络 、卷积神经网络 、端到端记忆网络等神经网络方法都成功应用于语言模型建模 。相较于n元语言模型, 神经网络方法可以在一定程度上避免数据稀疏问题, 有些模型还可以避免对历史长度 的限制, 从而更好建模长距离依赖关系 。这类方法通常称为神经语言模型( Neural Language Models , NLM ) 。Bengio等人在2000年提出了使用前馈神经网络对输出层隐藏层输入层进行估计的语言模型

立即下载
综合
2026-04-20
205页
6.4M
收藏
分享

大模型能力技术培训(205页PPT),点击即可下载。报告格式为PDF,大小6.4M,页数205页,欢迎下载。

本报告共205页,只提供前10页预览,清晰完整版报告请下载后查看,喜欢就下载吧!
立即下载
本报告共205页,只提供前10页预览,清晰完整版报告请下载后查看,喜欢就下载吧!
立即下载
水滴研报所有报告均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。
相关图表
图表39. 稀土金属及其氧化物价格变动
综合
2026-04-20
来源:有色金属行业周报:印度铝厂扩产延期收紧供给,印尼计价规则调整镍价上移
查看原文
图表33. 中国原铝进出口数量(吨) 图表34. 中国未锻轧铝及铝材进出口数量(吨)
综合
2026-04-20
来源:有色金属行业周报:印度铝厂扩产延期收紧供给,印尼计价规则调整镍价上移
查看原文
图表31. 中国电解铝库存(万吨) 图表32. LME+COMEX+SHFE 铝库存变化(吨)
综合
2026-04-20
来源:有色金属行业周报:印度铝厂扩产延期收紧供给,印尼计价规则调整镍价上移
查看原文
图表29. 中国电解铝在产产能(万吨) 图表30. 中国电解铝产量(万吨)
综合
2026-04-20
来源:有色金属行业周报:印度铝厂扩产延期收紧供给,印尼计价规则调整镍价上移
查看原文
图表27. 铜矿加工费 图表28. 铜精废价差
综合
2026-04-20
来源:有色金属行业周报:印度铝厂扩产延期收紧供给,印尼计价规则调整镍价上移
查看原文
图表23. SHFE 铜库存变化(吨) 图表24. LME+COMEX+SHFE 铜库存变化(吨)
综合
2026-04-20
来源:有色金属行业周报:印度铝厂扩产延期收紧供给,印尼计价规则调整镍价上移
查看原文
回顶部
报告群
公众号
小程序
在线客服
收起