黄坚:大规模智算集群的管理与性能调优实践
天翼云云网产品事业部研发专家 黄坚大规模智算集群的管理与性能调优实践演讲嘉宾介绍研发方向:云原生、AI算力基础设施重点关注:•AI智算平台研发工作•大规模智算集群的性能诊断和调优•国产算力生态适配黄坚 天翼云研发专家目录• 大规模智算集群的痛点问题• 运维及管理实战思路和方案• 云骁智算平台及落地实践• 智算平台未来展望目录• 大规模智算集群的痛点问题• 运维及管理实战思路和方案• 云骁智算平台及落地实践• 智算平台未来展望大模型分布式训练Ref: Megatron-LM: Training Multi-Billion Parameter Language Models Using Model Parallelism模型并行大模型分布式训练模型并行流水线并行数据并行• 计算密度大• 显存要求高• 通信占比大算力标准化程度非常高大规模智算交付:6阶58步2.15 压测报告解读2.14 硬件压测2.13 压测环境搭建2.12 序列号收集2.11 设备型号名检查2.10 厂商名检查2.9 BIOS密码配置2.8 BIOS配置项检查2.7 BMC配置2.6 BIOS配置2.5 固件升级2.4 配置项梳理2.3 设备上电2.2 保压测试2.1 设备安装与上架3.16 线缆检查3.15 OS配置项检查3.14 磁盘阵列配置3.13 HPFS OS安装3.12 DPU 网络配置3.11 DPU rshim安装3.10 NPU网络配置3.9 NPU软件栈安装3.8 普通网卡配置3.7 交换机配置校验3.6 ROCE交换机配置3.5 业务交换机配置3.4 Raid卡驱动升级3.3 网卡驱动安装3.2 NPU OS安装3.1 管理交换机配置4.6 集群模型训练测试4.5 集合通信测试4.4 单机模型训练测试4.3 综合测试项整改4.2 单机综合测试4.1 配置检查5.3 网络参数调整优化5.2 性能瓶颈分析5.1 物理链路检查6.12 软集完成6.11 软集问题整改6.10 软集验收组验收6.9 云调结单6.8 专业组验收项整改6.7 专业组验收6.6 自动验收通过6.5 自动验收项整改6.4 自动化预验收6.3 表格导入云调系统6.2 测试报告准备6.1 表格准备1.6 LLD输出1.5 集成方案输出1.4 集成规范解读1.3 初始化要求获取1.2 IP资源获取1.1 设计文档获取LLD设计1安装与初始化2部署调测3集群验证4集群优化5验收整改6需特别关注点关键节点难点智算集群工程化交付大集群等于大算力?AI算力 3000P+根光纤个光模块张AI加速卡台AI服务器台网络交换机台存储服务器 智算中心MTBF平均任务稳定运行时长低MTTR故障恢复时间相对长最大程度发挥算力的挑战• 挑战1:智算业务与底层算力高耦合• 挑战2:故障发现及性能调优,无法依托单一指标• 挑战3:百万器件管理复杂度高目录• 大规模智算集群的痛点问题• 运维及管理实战思路和方案• 云骁智算平台及落地实践• 智算平台未来展望集群性能 - 单机配置正确性检查•加速卡驱动•网卡驱动•nvidia-fabric-manager•nvidia_peermem•GPU拓扑•GPU主频•PM模式•CUDA/CANN版本•NCCL/HCCL版本•pytorch版本•transformer版本•deepspeed版本•megatron版本集群性能 - 集群软硬件一致性• 加速卡驱动• 网卡驱动• 内核版本• 操作系统• CPU配置• 内存配置• RDMA网卡配置• RDMA网卡命名• 业务面网卡• 服务器存储挂载点• CUDA/CANN版本集群性能 - 健康检查•加速卡健康检查•HBM健康检查•加速卡残留进程•RDMA端口状态•RDMA网络连通性•leaf-spine网络链路闪断•根目录可用量•容器空间容量•防火墙状态•CPU健康检查•内存容量检测•业务网口状态检查解决硬件异常问题集群稳定性 - 算力网络拓扑展示裸金属交换机交换机服务器、交换机的告警染色的拓扑形态呈现随时随地了解智算集群健康状态训练任务的告警拓扑展示随时了解训练任务的健康状态训中观测 - 核心指标解析• power_usage :GPU是否忙?• gpu_ulitization:有任务占用,粗粒度• sm_active: GPU真正工作• tensor_active:tensor core工作情况• fp64_active:fp64工作情况• fp32_active:fp32工作情况• fp16_active:fp16工作情况多维度性能基线• 集合通讯基线• RDMA网络吞吐基线• 加速卡算力 模型训练基线加速卡 - IB网卡 - 切分方式 - 集群规模丈量开源大模型不同算力的性能表现目录• 大规模智算集群的痛点问题• 运维及管理实战思路和方案• 云骁智算平台及落地实践• 智算平台未来展望云骁智算平台智算数据中心AIDC集群管理云骁 - 计算加速平台异构计算高性能存储高性能网络算力加速故障诊断高性能算力底座集“异构计算+高速存储+无损网络+算力加速+高效运营”五大能力一体的计算加速平台,提供高性能算力底座、计算加速、故障诊断等服务云骁智算平台 - 集群稳定性保障核心指标全覆盖软硬件故障全面分析诊断可配置的集群级运维多维度综合测速,丈量算力输出国产化之路覆盖算力、存储、网络、平台各层次,可支撑大模型训练推理的全国产智算基础设施平台,国内最早提供大模型训练用昇腾算力的云服务商•基于国产GPU实现智算训练、推理服务能力和超算能力•自研RDMA网络和存储技术,打造高性能的信创算力底座•自研TeleCloud OS完全替代openStack•具备一云多芯超大规模信创资源池管理和智能调度能力•性能深度优化,SPEC Cloud性能测试中多项指标测评分数全球领先•自研分布式存储引擎LAVA,替代开源Ceph存储;推出新一代云硬盘XSSD,提供百万IOPS、小于100微秒时延目录• 大规模智算集群的痛点问题• 运维及管理实战思路和方案• 云骁智算平台及落地实践• 智算平台未来展望智算工程关注点性能与稳定 数万卡集群的算力加速 百万级元器件的故障快速恢复 数百项的基础组件的自动化交付 降低训练、推理工具使用门槛开箱即用 非CUDA生态的技术路线演进 大模型训推最佳实践国产化国云注智 智算升级
黄坚:大规模智算集群的管理与性能调优实践,点击即可下载。报告格式为PDF,大小5.63M,页数24页,欢迎下载。