2025AI大模型跨域训练池化调度技术体系白皮书

未来网络技术发展系列白皮书(2025)AI大模型跨域训练池化调度技术体系白皮书第九届未来网络发展大会组委会2025年8月 编写说明 主要编写单位: 紫金山实验室、江苏省未来网络研究院 主要编写人员: 周俊、孙远、刘准、张晨、高新平、杨彩云、孙婵娟、王春生、肖玉明、梁木 特别鸣谢: 新华三、天数智芯、浪潮信息、中兴通讯、中国电信 I 前 言 AI 大模型的跨域训练是全球范围关注的前沿技术方向,它是指将多个不同的智算中心组合在一起训练同一个 AI 大模型。为什么需要跨域训练?业界通常的认知在于,当大模型未来发展到万亿、十万亿参数规模时,根据 Scaling Law 需要用到万卡甚至十万卡才能完成其预训练过程,这样的体量规模如果集中到一个集群内部,在技术、能源、配套等方面都存在着严峻的挑战,因此需要通过网络连接多个集群并加以组合,以共同训练同一个万亿/十万亿的大模型。 实际上自 OpenAI 发布 GPT-4 后,业界就一直在围绕下一代 GPT的需求进行跨域训练的探索。这样的认知与实践自然无可厚非,它更多地关注于通用大模型的发展问题,是一种“少数人的游戏”。DeepSeek 发布 V3/R1 后,通用大模型不可逆地走上了开源路线,原有牌桌上“少数人”中的大部分又被迫离场,目前已变成了“几个玩家的游戏”。 一个令人焦虑的问题是,虽然打牌的人越来越少,但牌桌却无法自动缩小反而仍在不断扩大,这于我国而言是十分明显的。根据国家数据局最新数据,我国算力总规模已排在全球第二位,但由于诸多方面的原因,我国的高端智能算力领域却同时面临着“少、杂、散”的客观困境。破局点在哪?让我们重回 2023 年底《关于深入实施“东数西算”工程加快构建全国一体化算力网的实施意见》(简称意见),意见在基本原则中明确指出“充分发掘重点行业算力需求,盘活存量 II 算力资源”,“探索异属异构异地的算力资源并网调度技术方案和商业模式”,其中即蕴含了破局之道。 DeepSeek 开源后,虽然通用大模型的玩家廖然无几,但却极大地带动了行业的算力需求,企业不仅可使用“DeepSeek+知识库”进行推理,还可以基于“DeepSeek+数据集”通过后训练培养出自身专属专用的“企业大模型”。与通用大模型“广而杂”不同,“企业大模型”需要的是“专而精”,百亿级参数通常足够日常生产使用,一次后训练的算力需求大多在几十卡的规模,卡的型号并不追求高端顶尖,出于成本考虑这些企业通常也不会为后训练自建集群,通过租用算力会更经济实惠。与通用大模型预训练“开一单、吃三年”的“算力房地产”模式不同,企业大模型后训练更适合薄利多销、细水长流的“算力网调度”模式,在全国一体化算力网的服务能力加持下,千行百业按需消纳“异属异构异地”的存量算力资源,把“少数人的游戏”变回“一群人的生态”。 《AI 大模型跨域训练池化调度-技术体系白皮书》(简称白皮书)的编制,是基于未来网络团队多年来在 AI 大模型跨域训练与算力网调度方面结合实践的创新成果。与业界面向于通用大模型在“同属、同构/异构、同城/异地”资源上的拉远部署技术路线有所不同,未来网络专注于企业大模型在“异属、异构、异地”资源上的池化调度技术路线,通过“广域确定性网络+智算资源并网+算网协同调度”三位一体的技术架构,可真正实现“异属合训、异构混训、异地同训”的池化调度能力。 III 白皮书围绕技术体系视角,对于 AI 大模型跨域训练池化调度的参考架构、关键技术、试验评估等进行了详细的介绍。希望能够通过本白皮书的内容,为业界树立基于“异属异构异地”资源的 AI 大模型跨域训练池化调度范式,为实现全国一台超级计算机的宏伟目标走出未来网络创新路径。 IV 目 录 前 言 ..................................................................................................... I 目 录 .................................................................................................. IV 一、 背景与概念 ..................................................................................... 6 1.1 AI 大模型 .................................................................................... 6 1.2 跨域训练 .................................................................................... 8 1.3 池化调度 .................................................................................. 10 二、 技术路线分析 ................................................................................ 11 2.1 专用算力拉远 .......................................................................... 12 2.2 全局池化调度 .......................................................................... 14 三、 AI 大模型跨域训练池化调度 ...................................................... 15 3.1 总体架构 .................................................................................. 15 3.2 计算通信重叠的跨域训练框架 .............................................. 17 3.3 跨广域的算网存协同调度 ...................................................... 19 3.4 异属异构智算资源池化并网 ....................

立即下载
综合
2025-09-02
92页
6.73M
收藏
分享

2025AI大模型跨域训练池化调度技术体系白皮书,点击即可下载。报告格式为PDF,大小6.73M,页数92页,欢迎下载。

本报告共92页,只提供前10页预览,清晰完整版报告请下载后查看,喜欢就下载吧!
立即下载
本报告共92页,只提供前10页预览,清晰完整版报告请下载后查看,喜欢就下载吧!
立即下载
水滴研报所有报告均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。
相关图表
表 1.1 建筑与建造碳排放测算说明
综合
2025-09-02
来源:中国城乡建设领域碳排放研究报告(2024年版)
查看原文
五新隧装回复问询函,中裕科技、青矩技术半年报营收与归母净利润均同比增长
综合
2025-09-02
来源:北交所策略并购专题报告第五期:卓兆点胶收购广东浦森,设备与耗材强强联合客户互补,中报扭亏为盈
查看原文
广东浦森产品包括针筒、胶枪、适配器、点胶配件等
综合
2025-09-02
来源:北交所策略并购专题报告第五期:卓兆点胶收购广东浦森,设备与耗材强强联合客户互补,中报扭亏为盈
查看原文
广东浦森点胶耗材广泛应用于 LCD、LED、声学、半导体、马达、电子电缆及其他行业
综合
2025-09-02
来源:北交所策略并购专题报告第五期:卓兆点胶收购广东浦森,设备与耗材强强联合客户互补,中报扭亏为盈
查看原文
卓兆点胶资产负债率 2025H1 出现回升但未达到 2020-2022 年水平
综合
2025-09-02
来源:北交所策略并购专题报告第五期:卓兆点胶收购广东浦森,设备与耗材强强联合客户互补,中报扭亏为盈
查看原文
2025 年并表广东浦森后,卓兆点胶资产规模增长
综合
2025-09-02
来源:北交所策略并购专题报告第五期:卓兆点胶收购广东浦森,设备与耗材强强联合客户互补,中报扭亏为盈
查看原文
回顶部
报告群
公众号
小程序
在线客服
收起