2025年人工智能技术发展与应用探索演讲
人工智能技术发展与应用探索王 磊中国科学院自动化研究所 研究员中科闻歌 董事长北 京 · 2 0 2 5 年 2 月人工智能技术发展Deepseek认知与影响AI+金融实践案例01020304目 录创业介绍—中科闻歌01 人工智能技术发展ChatGPT揭开通用人工智能序幕弱人工智能 → 强人工智能1956-19701970-20102010-20202021-2035“如何用机器模拟人的智能”会看会听会说发展和应用迭代加速会学习会行动196020102024大模型优势特点与不足通顺通识通用通畅优势不足通顺自然语言生成全领域通识知识体系覆盖多种自然语言通畅的人机交互意图识别及逻辑推理场景通用1、静态模型不产生知识3、模型原理导致幻觉或常识性错误2、不能理解领域的复杂问题4、大模型安全,可能包含仇恨、有害或危险内容ChatGPT不是基础科学突破,是工程积累奇迹大模型技术大集成人机协同群体智慧(人力密集工程)大数据加大算力(智力密集工程)(算力密集工程)大模型:智力密集型工程ChatGPT学习方法:先量后质的分阶段学习阶段一:泛学(学习多样文本)阶段二:矫正(遵循人类指示)阶段三:拟人(符合人类偏好)奖励惩罚回答的好回答的差人类教导鹦鹉该怎么说话提问拥有海量知识理解指令要求自由发挥优质对话范例让鹦鹉听收音机各种节目学说话什么是苹果?-5呵呵矫正100+语种文本人文社科网站问答新闻娱乐请问如何撬锁偷邻居东西?撬锁是违法的,不建议这样做。-1回答不受约束对话模板有限苹果是一种可以吃的东西ChatGPT编程语言科技文献ChatGPT3苹果是营养水果,素无法产生创新性回答用对话模板矫正ChatGPT有水果之王的美誉…掌握海量知识ChatGPT无监督学习生成人类偏好的创意回答监督学习基于人类反馈的强化学习•••••递归神经网络卷积神经网络自编码器变分自编码器自回归模型••数据增强技术去噪扩散模型对抗生成网络强化学习•••Word2vecTransformer架构预训练语言模型••ChatGPT:智力密集型工程大模型:人机协同群体智慧阶段一:泛学(学习多样文本)阶段二:矫正(遵循人类指示)阶段三:拟人(符合人类偏好)GPT3.5无监督学习监督学习强化学习ChatGPT人工整理多来源海量优质人工撰写大量人工标注答案得分数据集对话模板ChatGPT:OpenAI在拉丁美洲和东欧等地区招募了约1000名 远程外包员工进行数据标注ChatGPT:人力密集型工程大模型:大数据与大算力1750亿参数45TB数据GPT48000亿个单词的语料库英伟达发布ChatGPT专用核弹级GPU DGX H10015亿参数ChatGPT1.2亿参数40GB数据参数规模提升100倍5GB数据GPT2数据规模提升1000倍GPT1推理成本训练成本约3万片英伟达A100GPU同时计算4千台服务器,共8亿美元140万美元/次微软Azure计算平台支持2022年一年计算和数据费用支出为4亿美元用电量60万kwh/天,电费5万美元/天(26万中国人一天的用电量)ChatGPT:算力密集型工程大语言模型应用迭代路径感知认知智能大语言模型多模态大模型人工智能代理(Agent)控制/决策大模型大模型+插件+执行+思维链执行智能决策智能大模型应用两大误区误解体现l 局限于聊天、写作类常规文案应用;与核心业务脱节l AI+,就是部署大模型和微调大模型大模型工具化大模型神化l 大模型黑箱化,直接端对端解决重大应用问题l 一个大模型包打天下,无所不能AI+行业落地三步曲STEP 1STEP 2STEP 3数据工程 模型工程 领域工程高质量领域数据治理继续预训练、多模型适配指令微调、回馈学习、应用研发大模型应用到行业领域关键挑战:静态模型与动态数据的不匹配分析挑战需求特征本质技术支撑快海量跨模态信息检索信息庞杂、动态化线索数据深活深度认知分析难精细数据未来数据窄域专用智能通用人工智能本源规律趋势预测难AI+行业数智化路径思考:先升级、再泛化、后革新应用0-1创新:新业务、新功能,面上谋划升级赋能:现有系统和业务小模型,点上赋能l 新型研判范式、l 未来态势l 数据分析、知识积累l 分析深度+高质量+l 高效率l 广域理解+高效推演抓手与支撑:打造领域大模型l 积累通域+领域数据、模型规模适中、从头训练l 前瞻性定义领域大模型与业务系统标准接口,多型共进,形成MoE (混合专家模型)生态,严格把好内容安全关,连续测试1402 Deepseek认知与影响DeepSeek模型发展特点:特点:特点:特点:• 架构:专家负载均衡策略与多词预测训练目标• 预训练:极高地训练效率• 后训练:DeepSeek-R1蒸馏• 效果与闭源模型可比•••后训练:在基础模型上进行大•••通用能力超过LlaMa2-70B擅长代码和数学中文超GPT3.5•••Multi.head Latent AttentionDeepSeekMoE(2024.1.11)开源模型中效果第一梯队规模强化学习蒸馏:小型模型同样可以利用互相促进R1的数据而强大与Open-o1-1217可比DeepSeek v2(16B total. 2.4B activated236B total, 21B activated)DeepSeek LLM(7B/67B)DeepSeek v3(671B total, 37B activated)DeepSeek R1(671B total, 37B activated)2024.1.52024.6.192024.12.272025.1.22未来工作未来工作未来工作未来工作DeepSeek-MathDeepSeck-MoEDeepSeek-CoderDeepSeek-Prover“力求进一步提高训练和推理效率,争取实现对无限上下文长度的高效支持”,“通用能力(tool call、多轮、角色扮演、json输出)不及 V3”;“语言混用”;“很快,我们将发布关于代码智能和混合专家的技术报告...我们的初步实验证明强化学习能够提升模型的复杂推理能力。”“在即将发布的模型中,实现与GPT-4相当的性能”“我们还将尝试突破Transformer架构的局限,推动其建模能力的边界 ,”“对fewshot敏感”;“我们将不断探索和迭代模型的深度思维能力,旨在通过扩展推理的长度和深度”“软件工程能力待提升”DeepSeek R1加速“o1时刻”到来首次提出ChatGPTLLaMAo1/o3深度思考模型让大模型领域再度迎来“ChatGPT/o1时刻”开源复现DeepSeek R1“有限算力+算法创新”发展模式是突破算力卡脖子限制的关键“开源”加速促进人工智能技术快速迭代强化学习高效模型架构创新开源高效训练-提升数据利用效率高效思考-提升思考信息密度MoE/MTP/MLA提升训推效率全方位技术开源o1的开源平替极致的 Infra 优化GPU性能DeepSeek 三大特征特征一:复制 OpenAI o1 技术思路OpenAI 首席研究官 Mark Chen承认 DeepSeek R1 揭示 o1 核心思想通过大规模 RL(强化学习)训练,逐步增加模型思考时间,涌现出“Aha moment”的顿悟与反思行
2025年人工智能技术发展与应用探索演讲,点击即可下载。报告格式为PDF,大小7.25M,页数61页,欢迎下载。