金融业AI大模型智算网络研究报告

金融业 AI 大模型智算网络研究报告北京金融科技产业联盟2025 年 5 月I版权声明本报告版权属于北京金融科技产业联盟,并受法律保护。转载、编摘或利用其他方式使用本报告文字或观点的,应注明来源。违反上述声明者,将被追究相关法律责任。II编制委员会主任:聂丽琴编委会成员:吴仲阳张勇张志鹏李建高成晓强编写组成员:陈鹏余学山黄海张治铧王世媛叶鑫张杰常东刘佳编审:黄本涛周豫齐参编单位:北京金融科技产业联盟秘书处中国工商银行股份有限公司中国邮政储蓄银行股份有限公司华为技术有限公司III摘要2023年10月,中国人民银行等六部门联合印发《算力基础设施高质量发展行动计划》,指出“算力是集信息计算力、网络运载力、数据存储力于一体的新型生产力”,针对网络运载力提出“优化算力高效运载质量、强化算力接入网络能力、提升枢纽网络传输效率、探索算力协同调度机制”的重点任务,明确通过“算力+金融”加快算力在金融领域的创新应用,为金融业务发展提供更为精准、高效的算力支持。AI大模型智算网络技术是算力集群的重要基础底座,是新型算力中的网络运载力,是助力大模型实现跨节点分布式训练,提升大规模训练效率的重要支撑。本文深入分析 AI 大模型技术在模型能力、结构、算力、效率等方面的技术发展趋势,提出作为底座的智算网络所面临的新问题和新挑战。围绕 AI 大模型智算网络“高性能连接、高效率传输、高可维网络、高安全保障”等关键技术进行研究,提供一套适应金融特征的覆盖数据中心、骨干及分支的 AI 智算网络技术方案。结合行业业务及技术发展方向,将金融业 AI 智算网建设演进划分为打造底座、构建系统、完善生态 3 个阶段,并给出了新技术发展及创新方向,为金融机构开展 AI 大模型智算网络规划及建设提供参考。关键词:大模型训练、智算网络、负载均衡、流控技术、拥塞管理IV目录一、研究背景 ................................................. 1(一)AI 大模型发展趋势及挑战 ............................. 1(二)金融领域应用规划 ................................... 4二、智算网络方案综述 ......................................... 5(一)智算网络技术需求 ................................... 5(二)业界智算网络方案 ................................... 6三、智算网络整体架构及关键技术 .............................. 10(一)高性能网络拓展算力规模 ............................ 11(二)高可用网络提升算力效率 ............................ 12(三)高可维网络增强算力可用性 .......................... 17(四)高安全网络保障算力安全 ............................ 19四、智算网络发展趋势 ........................................ 21(一)主要发展阶段 ...................................... 21(二)新技术创新方向 .................................... 22五、案例实践 ................................................ 23(一)工商银行 AI 大模型算网融合创新实践 ................. 23(二)邮储银行 AI 大模型算力网络创新实践 ................. 24术语与缩略词表 .............................................. 27参考文献 .................................................... 281一、研究背景(一)AI 大模型发展趋势及挑战随着新一轮科技革命和产业变革加速推进,AI 大模型浪潮席卷全球,成为最具影响力的创新科技,大模型被认为是未来人工智能领域的关键基础设施。AI 大模型正加速定义及形成新服务、新制造、新业态,成为数字时代的新质生产力。随着技术演进,AI 大模型技术呈现以下显著发展趋势:一是模型能力持续提升。随着深度学习技术不断发展,AI大模型的参数规模和计算能力不断增加,使得模型能够处理更加复杂的任务和数据。2022 年发布的自然语言模型 GPT-3,能生成高质量的自然语言文本,能进行翻译、问答、文本生成等任务;在 2024 年诞生的 Sora 模型,不仅演进到视频生成的能力,还具备理解和应用现实世界物理规律的强大能力。AI 大模型逐渐从能说会道过渡到了突破多模态,形成了人机混合、自主理解、规划决策、执行复杂任务的智能体 AI Agent。二是模型结构持续演进。稠密模型由于其结构简单及易于实现,在早期成为大模型的主流。但是随着 AI 模型规模不断扩大,计算和存储资源的需求不断增加,成为新的挑战。稀疏模型因其支持参数剪枝,在保持模型性能的同时极大降低了计算成本,因而受到更多关注并逐步成为演进方向。三是模型算力持续增长。从 2016 年到 2024 年,GPU 单卡算力增长了 1000 倍;以英伟达 GPU 为例,其单卡算力增长速度达2到每 6 个月翻一番,超过了摩尔定律。新出现的 Super pod 超节点技术可将多个 GPU 集成在一个较大的服务器中,通过高速总线互联,实现高带宽、低延迟的数据交换和通信,以持续提升单节点算力(例如英伟达 GB200)。另一方面,大模型的参数量从 GPT-1的 0.1B 增长到 ChatGPT 的 175B,模型所需算力在四年间也从GPT-1 的 1PFlops 增长到 ChatGPT 的 3000+PFlops,如表 1 所示。表1 AI大模型算力变化趋势四是模型效率持续优化。随着AI大模型的规模和复杂性增加,训练效率面临严峻挑战。业界通过并行通信算法优化、模型算法优化、混合精度训练优化等技术在训练框架层、通信算法层持续提升AI模型训练的效率。随着技术的不断进步,未来必定会有更多高效训练AI模型的方法出现。AI大模型持续加速演进,其庞大的训练任务需要大量服务器节点通过高速网络互联组成AI算力集群协同完成。但AI算力集群并非通过简单算力堆叠即可实现完美线性扩展,而是取决于节点间网络通信及集群系统资源调度能力。网络系统的性能及可用性3成为AI算力集群的线性度和稳定性的关键,也面临新的挑战:一是高性能传输挑战。大模型需要大量的数据进行训练和推理,千亿模型单次计算迭代内,梯度同步需要的通信量达百GB量级;MoE稀疏模型下张量并行的卡间互联流量带宽需求达到数百至上千GBps量级。服务器节点间互联网络会承载数据并行和流水线并行流量,千亿参数模型如GPT-3并行训练节点间带宽需求达到13.5GB(108Gbps),如表2所示。万亿模型参数面带宽需求增加到

立即下载
金融
2025-06-03
33页
1.77M
收藏
分享

金融业AI大模型智算网络研究报告,点击即可下载。报告格式为PDF,大小1.77M,页数33页,欢迎下载。

本报告共33页,只提供前10页预览,清晰完整版报告请下载后查看,喜欢就下载吧!
立即下载
本报告共33页,只提供前10页预览,清晰完整版报告请下载后查看,喜欢就下载吧!
立即下载
水滴研报所有报告均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。
相关图表
深交所企业资产支持证券持有人分布(单位:亿元)
金融
2025-06-03
来源:企业资产支持证券产品报告(2025年一季度)
查看原文
上交所企业资产支持证券持有人分布(单位:亿元)
金融
2025-06-03
来源:企业资产支持证券产品报告(2025年一季度)
查看原文
2025年一季度企业资产支持证券二级市场交易情况-基础资产类型分布
金融
2025-06-03
来源:企业资产支持证券产品报告(2025年一季度)
查看原文
2025年一季度及2024年同期企业资产支持证券二级市场交易月度分布情况(单位:亿元、笔)
金融
2025-06-03
来源:企业资产支持证券产品报告(2025年一季度)
查看原文
2025年一季度及2024年同期企业资产支持证券月度备案情况(单位:亿元、单)
金融
2025-06-03
来源:企业资产支持证券产品报告(2025年一季度)
查看原文
2025 年一季度企业资产支持证券(AAAsf 级)与各期限企业债(AAA 级)到期收益率利差比较表
金融
2025-06-03
来源:企业资产支持证券产品报告(2025年一季度)
查看原文
回顶部
报告群
公众号
小程序
在线客服
收起