新型智算中心改造系列报告一:网络成大模型训练瓶颈,节点内外多方案并存
请务必阅读正文之后的免责声明及其项下所有内容证券研究报告 | 2024年5月5日新型智算中心改造系列报告一:网络成大模型训练瓶颈,节点内外多方案并存行业研究 · 行业专题 计算机 · 人工智能投资评级:超配(维持评级)证券分析师:熊莉021-61761067xiongli1@guosen.com.cnS0980519030002联系人:艾宪0755-22941051aixian@guosen.com.cn请务必阅读正文之后的免责声明及其项下所有内容摘要•AI大模型训练和推理拉动智能算力需求快速增长。a)模型迭代和数量增长拉动AI算力需求增长:从单个模型来看,模型能力持续提升依赖于更大的训练数据量和模型参数量,对应更高的算力需求;从模型的数量来看,模型种类多样化(文生图、文生视频)和各厂商自主模型的研发,均推动算力需求的增长。b)未来AI应用爆发,推理侧算力需求快速增长:各厂商基于AI大模型开发各类AI应用,随着AI应用用户数量爆发,对应推理侧算力需求快速增长。•智算中心从集群走向超级池化。智算中心是以GPU、AI加速卡等智能算力为核心,集约化建设的新型数据中心;随着大模型普遍进入万亿规模,算力、显存、互联需求再次升级,高速互联的百卡“超级服务器”可能成为新的设备形态,智算中心将走向超级池化阶段,对设备形态、互联方案、存储、平台、散热等维度提出新的要求。•网络互联:节点内外多方案并存。1)节点内:私有方案以英伟达NVLink为代表,NVLink已经发展至第五代产品,同时支持576个GPU之间的无缝高速通信;开放技术方案以OAM和UBB为主,OCP组织定义了业内通用的AI扣卡模组形态(OAM)-基板拓扑结构(UBB)设计规范。2)节点间:主要方案为Infiniband和RoCEv2;Infiniband网络主要包括InfiniBand网卡、InfiniBand交换机、Subnet Management(SM)、连接件组成;RoCEv2网络是一个纯分布式的网络,由支持RoCEv2的网卡和交换机、连接件、流控机制组成。InfiniBand在网络性能、集群规模、运维等方面具备显著优势。•投资建议:AI大模型的参数量和训练数据量的快速增长,对数据中心的计算、存储、网络等提出新的要求,新型智算中心是产业发展趋势;AI大模型需要部署在高速互联的多个AI芯片上,数据样本和模型结构被切分到多张卡或者节点上,卡间或节点间不仅有训练数据通信,还有模型梯度的频繁传递,对智算中心的网络互联提出新的要求,建议关注宝信软件。•风险提示:宏观经济波动、下游需求不及预期、AI伦理风险等。请务必阅读正文之后的免责声明及其项下所有内容智算中心:从集群走向超级池化01网络互联:节点内外多方案并存02目录投资建议及风险提示03请务必阅读正文之后的免责声明及其项下所有内容智能算力需求:训练数据量+参数量大幅提升,模型能力“涌现”•训练数据量+参数量大幅提升,模型能力“涌现”。根据2022年谷歌、斯坦福大学和Deepmind联合发表的《Emergent Abilities of Large Language Models》,很多新能力在中小模型上线性放大都得不到线性的增长,模型规模必须呈指数级增长并超过某个临界点,新技能才会突飞猛进。同时,模型的参数量和数据量在一定程度下是正相关的,因为:a)在小规模数据上训练模型时,若模型参数量过大,可能出现过拟合情况;b)在大规模数据上训练模型时,若不增加模型参数量,可能造成新的知识无法存放的情况。图1:训练数据大幅提升后,模型能力“涌现”资料来源:Jason Wei等著-《Emergent Abilities of Large Language Models》-Transactions on Machine Learning Research(2022)-P4,国信证券经济研究所整理图2:模型参数大幅提升后,模型能力“涌现”资料来源:Jason Wei等著-《Emergent Abilities of Large Language Models》-Transactions on Machine Learning Research(2022)-P27,国信证券经济研究所整理请务必阅读正文之后的免责声明及其项下所有内容智能算力需求:大模型训练+推理拉动智能算力需求快速增长•大模型训练+推理拉动智能算力需求快速增长。a)模型迭代和数量增长拉动AI算力需求增长:从单个模型来看,模型能力持续提升依赖于更大的训练数据量和模型参数量,对应更高的算力需求;从模型的数量来看,模型种类多样化(文生图、文生视频)和各厂商自主模型的研发,均推动算力需求的增长。b)未来AI应用爆发,推理侧算力需求快速增长:各厂商基于AI大模型开发各类AI应用,随着AI应用用户数量爆发,对应推理侧算力需求快速增长。图3:全球智能算力快速增长资料来源:《中国算力发展指数白皮书(2022年&2023年,中国信通院)》 、国信证券经济研究所整理图4:中国智能算力快速增长资料来源:《2023-2024年中国人工智能计算力发展评估报告(IDC&浪潮信息)》 、国信证券经济研究所整理0.23 0.45 52.50 0102030405060202120222030智能算力(基于FP32计算,ZFLOPS)75155.2259.9414.3497.1616.6812.51117.402004006008001000120020202021202220232024202520262027智能算力(基于FP16计算,EFLOPS)请务必阅读正文之后的免责声明及其项下所有内容智算中心:以GPU、AI加速卡为核心的新型数据中心•智算中心是以GPU、AI加速卡等智能算力为核心,集约化建设的新型数据中心。智算中心为AI大模型训练、推理提供算力支撑,同时为AI应用提供算力服务、数据服务和算法服务;以中国移动推出了NICC新型智算中心为例,可分为“三层两域”:•基础设施层:提供计算、存储、网络等硬件资源。•智算平台层:作为资源管理核心,提供裸金属、虚机和容器等多样化实例以及细粒度的资源池化能力;搭建算力原生平台提供应用跨架构迁移能力。•应用使能层:集成行业主流AI开发框架。•智算运维域:负责对底层IaaS进行管理维护,确保系统稳定运营。•智算运营域:对接外部客户,提供计量计费、访问、交易等界面,对内根据上层任务进行资源编排调度。图5:中国移动NICC新型智算中心的“三层两域”架构资料来源:《中国移动 NICC 新型智算中心技术体系白皮书》,国信证券经济研究所整理请务必阅读正文之后的免责声明及其项下所有内容图6:大模型参数规模增长速度超过摩尔定律,推动智算中心发展资料来源:《生成式AI(State of Generative AI 2023)》-启明创投、未尽研究-P8、国信证券经济研究所整理智算中心:从集群走向超级池化•智算中心逐步从“集群时期”走向“超级池化时期”。随着AI大模型参数量增长,新型智算中心的建设既要考虑计算、存储、网络三大维度横向协同,也应兼顾软件平台与硬件资源的纵向协同,聚焦于“新互联”、“新算效”、“新存储”、“新平台”、“新节能”。•智算中心发展
[国信证券]:新型智算中心改造系列报告一:网络成大模型训练瓶颈,节点内外多方案并存,点击即可下载。报告格式为PDF,大小3.01M,页数24页,欢迎下载。
