Research+Triangle+AI:2024年大语言模型入门报告

大语言模型入门Getting Started with Large Language ModelsA Beginner's Guide and Live DemoPresented by Yi LiResearch Triangle AI2024-09-21议程概述 Agenda○引言与自我介绍 Introduction○理解大语言模型 Understanding LLM○实际应用 Practical Applications○演示:在Google Colab上部署Llama 3.1Demo: Deploying Llama 3.1 on Google Colab○伦理考量与LLM的未来 Ethical Considerations and Future of LLMs○总结与问答 Summary and Q&A啥是大语言模型 What is Large Language Model (LLM)○大语言模型(Large Language Model,LLM)○通过大量文本数据训练的一种人工智能模型○专门用于理解、生成和处理自然语言训练数据LLM输入中国的首都是?输出中国的首都是北京如何理解大语言模型○ 大规模大量参数的AI模型大量文本数据训练Common Crawl网络爬虫公开数据集WebText2 Reddit论坛网页文本Books1, Books2互联网书籍语料库Wikipedia 维基百科知识库GPT4 (not official)● 1.8T parameters● 120 layers● 13T tokens如何理解大语言模型○大规模■大量参数的AI模型■大量文本数据训练○ 语言■基于自然语言处理 (Nature Language Processing / NLP)■能够理解、生成和处理人类语言如何理解大语言模型○大规模■大量参数的AI模型■大量文本数据训练○语言■基于自然语言处理 (Nature Language Processing / NLP)■能够理解、生成和处理人类语言○ 模型■模拟语言规则和模式的数学框架■训练的模型可以预测语言中的下一个词或者句子LLM的简史与演变○早期发展■早期的NLP主要依赖于规则系统和基本的统计模型■神经网络的引入极大地改变了NLP领域○LLM的崛起:■Attention is all you need (2017)■2022年11月30日 ChatGPT发布常见的大语言模型OpenAI ChatGPT / o1Google GeminiMeta LlamaAnthropic ClaudeMistral Mistral/Mixtral百度 文心一言阿里云 通义千问华为 盘古腾讯 混元科大讯飞 星火零一万物 Yi 大模型是如何炼成的 How LLM is TrainedStep 1: Pre-training (unsupervised)Base LLM 文字接龙机Step 2: Supervised Fine-tuning (SFT)Instruct LLM 初级客服Step 3: Reinforcement Learning from Human Feedback (RLHF)Chat LLM 专业顾问大语言模型如何工作中国的首都是LLM……北京TokenizationEmbeddingAttentionFeed ForwardOutput文字转成 token理解 语义/位置考虑 上(下)文综合思考输出Transformer反复思考RAG / PAL / ReAct借助外部数据/工具中国的首都是人要是行,干一行,行一行。一行行,行行行;要是不行,干一行,不行一行。一行不行,行行不行。大语言模型和AI / ChatGPT的关系● LLM 是基础技术● ChatGPT是LLM技术的一种应用实现实际应用 Practical Applications○内容生成 Content Generation○知识库问答 Knowledge Base Answering○文本分类 Text Classification○情感分析 Sentiment Analysis○搜索 Search○计算机安全 Cybersecurity为什么要部署自己的大语言模型○数据隐私和安全 Data Privacy and Security○无需依赖互联网连接 Independence from Internet Connectivity○降低运营成本 Reduced Operational Costs○更高的模型灵活性与控制 Greater Flexibility and Control部署需求Google Colab Runtime (GPU type)Ollama server/daemonCommand Line (CLI)Python LibraryGUI●gradio○Google Colab (google account)■可用 free tier, with usage limits■基于 Jupyter Notebook○LLaMA 3.1■开源大模型 (by Meta)■2024年4月发布■多种模型■95%的训练数据是英文○Ollama■LLM 管理平台■开源部署步骤○环境设置■打开Google Colab■选择有GPU的runtime○安装Ollama○下载并运行Llama 3.1模型○与模型交互Google Colab Runtime (GPU type)Ollama server/daemonCommand Line (CLI)Python LibraryGUI●gradio演示:在Google Colab上部署Llama 3.1Demo: Deploying Llama 3.1 on Google ColabColab Notebook 链接下一步○硬件条件允许可以尝试 本地部署○与ngrok结合 随时访问自己的大模型○Fine tune 拥有了解自己的大模型○API 调用,与其它应用结合Google Colab Runtime (GPU type)Ollama server/daemonCommand Line (CLI)Python LibraryGUI●gradioGUI in remote●GPT4All●LM Studio●Open-WebUIngrokLLM的未来趋势○模型规模与计算能力的提升○多模态模型的发展○逻辑推理 openai o1 (self replay RL)○自主模型 (autonomous models)○更高效的微调与个性化及深入与人类的协作○减少模型偏见与提高模型透明度○伦理与法规的发展伦理考量○数据隐私 Ethical and Privacy Concerns○误导信息与虚假内容 Misinformation and False Content○偏见与歧视 Biases and Fairness Problems○对工作岗位的影响 Jobs/Society Impact○责任归属与道德困境 Accountability and Ethical Dilemmas○环境问题 Energy Consumption and C

立即下载
综合
2025-06-03
25页
1.04M
收藏
分享

Research+Triangle+AI:2024年大语言模型入门报告,点击即可下载。报告格式为PDF,大小1.04M,页数25页,欢迎下载。

本报告共25页,只提供前10页预览,清晰完整版报告请下载后查看,喜欢就下载吧!
立即下载
本报告共25页,只提供前10页预览,清晰完整版报告请下载后查看,喜欢就下载吧!
立即下载
水滴研报所有报告均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。
相关图表
表5-1 近十年全球药企并购Top10
综合
2025-06-03
来源:2025年从引进到引领:中国创新药交易十年全景透视报告
查看原文
图5-4 近两年本土biotech被海外并购概览
综合
2025-06-03
来源:2025年从引进到引领:中国创新药交易十年全景透视报告
查看原文
图5-3 近10年TOP MNC并购数量及金额统计(亿美元)
综合
2025-06-03
来源:2025年从引进到引领:中国创新药交易十年全景透视报告
查看原文
图5-2 主要国家药企并购数量及总金额统计,2015-2024年(亿美元)
综合
2025-06-03
来源:2025年从引进到引领:中国创新药交易十年全景透视报告
查看原文
图5-1 全球药企并购数量及金额统计,2015-2024(亿美元)
综合
2025-06-03
来源:2025年从引进到引领:中国创新药交易十年全景透视报告
查看原文
表4-3 近十年中国License-out交易TOP10
综合
2025-06-03
来源:2025年从引进到引领:中国创新药交易十年全景透视报告
查看原文
回顶部
报告群
公众号
小程序
在线客服
收起