AI大模型技术在电力系统中的应用及发展趋势
报告题目:AI大模型技术在电力系统中的应用及发展趋势报告人:赵俊华单位:香港中文大学(深圳)时间:2025年6月10日香港中文大学(深圳)The Chinese Untiyerilyot Hong Kang, Shenzhen01大语言模型与智能体技术简介人工智能A近代史:从早期的逻辑程序到神经网络的兴起决策式AI生成式AI决策+认知感知+学习执行+社会协作小规模专家知识浅层机器学习算法深度机器学习算法大规模预训练模型2011年1956年1986年2017年IBM的Watson计算机在美国电视节目历史上第一次人工智能GeoffreyHinton等人提出了一种名为Transformer架构提出,为研讨会召开,标志着人Backpropagation的神经网络训练算法Jeopardy中战胜了两位前冠军大模型发展打下基础工智能的诞生被认为是神经网络技术的一次重大突破2013年2018年GPT与BERT模型推出:开1965年1997年习模型启“大模型时代HerbertSimon和Allen国际蒙棋世界冠军Kasparov在与IBM开发的DeepBlue计算机的比赛中失利,标2014年2022年Newel开发了一个名为志着人工智能开始在一些传统的思维活GAN可生成图像但分辨率有限ChatGPT推出LogicTheorist的程序,它劫上超越人类可以用逻辑推理的方式解2015年2024年决数学证明问题,这被认2006年为是人工智能领域的一次Google的AlphaGo程序在围棋比赛中战胜Sora推出重大突破深度学习技术发明带来了革命性突破了世界冠军季世石标志着人工智能开始在更复杂的思维活动上超越人类军期萌芽阶段技术积淀阶段快速发展阶段爆发阶段(1950s-1980s)(1980s~2010年)(2011年~2016年)2017年~)源艾瑞2023年AI店C场量虚用展望研究报告什么是语言模型你好。一个前缀输入你也好。你好。V我50。**人类真实分布建模你好。你也好。V我50。给定相同前缀,语言模语言模型预测分布型是输出能近似人类语言分布的模型。LLM架构与训练:预训练阶段Instruction-PreferenceUntrainedBasetunedtunedLLMLLMLanguageFine-tuning1Fine-(Supervised)(Preference)-tuning2Figure 12-3.Thethree steps of creatinga high-qualityLLM.学习文字接龙(prefixLM),无需标注,自监督(self-supervised)“你好美丽。”书籍GPT一个不完整的句子论文接一个可能的字新闻你好美网络爬虫私有知识库你好美丽开源数据集(数学、推理)你好美丽LLM架构与训练:预训练阶段预训练模型三要素以及更多钱,大数据,知识的来源,包含各种语言现象及语义知识,直接决定了模型的学习范围·大模型,容纳大数据的载体,通常由深度神经网络构成,学习大数据中的统计信息与抽象知识·大算力:处理大数据和大模型的并行计算集群,通常包含GPU、TPU等高性能运算设备DeepTransformers(>12 layers)InputSeguene大数据大模型大算力(无标注文本)(深度神经网络)(并行计算集群)如何训练自己的LLM?微调训练ForwardpasswithForward passwithupdated modelupdatedmodel直接全量参数微调问题Embedding hEmbeddingh>LLM参数量巨大,7b=70亿参数etrainedWeight>耗费GPU资源多,通常需要A100*8以上(百万RMB)weightsupdateAW>训练时间长,需要数周时间InputsxInputs.xModel&Method#TrainableE2ENLGChalle解决方案:LoRA(Low-Rank Adaptation of Large Language Models)BLELNISTMETROLGE-LCIDErCSFSE68.28.624627102.47GPT2MTAdax0.37M66.38.4145.069.82.40GPT2MTH.09M$8.98.7116.71.32.417GPE2M(A2.44±核心优势GPT2MF25.19M8.5946.170.82.41GpT2M(PreLayer*0.35M59.8.8146.171471.8±2.53±82.49>训练参数量少,70亿参数使用LoRA只需要训练百万级别参数GPT-2M(LORA)0.35M70.446.8±GPT-2L(PT))774.03M68.58.7840.069.92.45>微调效果好,LoRA效果不差于全参数微调,优于其他微调方式J88M46.3GPT-2L(Ada23.00M>GPU要求低,3090*4即可微调7b模型46.872.0Table 3: GiPT/2 medium (M) and targe (Ly with different iadaplarion methois on the E2E NI.Ggr tevertreimablc paranctens.Coaidence imtervalsare showa forexpenimsents weTanindicaresaurtibers published in.priorworks.从人类反馈中学习-强化学习(RLHF)语言模型的社会化在web-scale的加入代码数据量化人类喜好,训练打分模型基于强化学习,迭代最终模型数据上,训练大重新训练。语言模型加入指令数据调优。选择问题世界最高的山峰是?重新选择问题总结下面文章PPO重复生成PPO模型几个答案A:珠穆朗玛峰B:喜马拉雅山生成回答文章的大意是。。。C:我也不知道D:你打我呀生成分数打分模型人工排序A>B>C>DGPT3GPT3.5排序结果打分模型训练奖励(Reward模型Model)Reward自监督学习监督学习强化学习LLM架构与训练:各个训练阶段综合来看.tanPasinaos预训练有监督微调强化学习原始数据标注用户指令用户指令千亿单词图书数万用户指令和对应十万量级用户指令百科、网页等的答案语言模型训练语言模型训练强化学习方法基础模型SFT模型RL模型1000+GPU1-100GPU1-100GPU月级别训练时间关级别训练时间天级别训练时间带着芙脸的修f由twitter.com/anthrupad提供Agent(自主智能体)考古学:通用定义自主智能体DeepMindLab,2016ObservationsActions典型实例EmbodiedOA.FAIR.2018能够自动感知环境能够在环境中自主行动能够通过环境反馈自主学习--Maes (1995)WIKIPEDIALLMAgent:关键能力一使用工具Tell TwitterTrending常用工具:InstructionToolAPIFoundationCall APIAnswer搜索引擎ModelHuman爬虫代码Result绘图TwitterTrendingis1.HotWeather1.Hot
[香港中文大学(深圳)]:AI大模型技术在电力系统中的应用及发展趋势,点击即可下载。报告格式为PDF,大小5.32M,页数43页,欢迎下载。