ETH-X 以太超节点系统运维规范
[编号ODCC-2025- 03001]E T H-X 以太超节点系统运维规范公出意点燃 宴 》2 0 2 5 年 9 月前言ETH-X 以太超节点系统由大规模异构硬件(涵盖 GPU、交换机、电源、液冷单元等)构成,其复杂的配置和依赖关系远超传统服务器运维。为了满足超节点集群稳定运行,充分发挥高效算力,需要针对性制定超节点运维规范,为相对复杂的运维工作提供指引。ETH-X 以太超节点系统运维规范构建覆盖硬件资产全生命周期的标准化运维框架,通过配置管理数据库统一纳管硬件/软件配置项,并清晰定义其关联关系,包含以下部分:资产全生命周期管理;分层实时监控;智能告警与故障处理;自动化巡检与可视化。本规范只涉及超节点内部相关运维环节,不覆盖计算集群整体运维。目录一、 概述 .......................................................... 1(一)运维架构 .................................................1(二)运维范围与场景 ...........................................1二、 资产管理 ...................................................... 2(一)记录信息 .................................................3(二)信息管理 .................................................8三、 监控系统 ...................................................... 8(一)采集方式 .................................................8(二)监控指标 ................................................11四、 日志系统 ..................................................... 31(一)日志内容 ................................................31(二)日志管理 ................................................35五、 告警系统 ..................................................... 35(一)告警类型 ................................................35(二)告警规则 ................................................37(三)告警处理 ................................................40六、 故障处理 ..................................................... 41(一)故障确认 ................................................41(二)业务迁移 ................................................42(三)硬件运维 ................................................43(四)软件运维 ................................................44七、 可视化系统 ................................................... 45(一)网页展示 ................................................45(二)超节点液晶屏 ............................................45八、 巡检系统 ..................................................... 46(一)人工巡检 ................................................46(二)自动巡检 ................................................47(三)巡检报告管理 ............................................47图 目 录图 1 超节点运维架构 ...............................................1图 2 超节点运维范围 ...............................................2表 目 录表 1 计算节点指标 .................................................3表 2 GPU 指标 .................................................... 5表 3 交换节点指标 .................................................6表 4 机柜控制单元指标 .............................................7表 5 节点运行状态指标 ............................................11表 6 节点异常状态指标 ............................................12表 7 GPU 基础信息指标 ........................................... 13表 8 GPU 运行状态指标 ........................................... 14表 9 GPU 异常状态指标 ........................................... 15表 10 光模块信息及异常指标 .......................................17表 11 网卡侧光模块指标 ...........................................20表 12 XCCL 指标 .................................................20表 13 XCCL 数据与异常指标 .......................................21表 14 交换节点指标 ...............................................23表 15 超节点内指标与健康阈值 ..........
ETH-X 以太超节点系统运维规范,点击即可下载。报告格式为PDF,大小5.38M,页数53页,欢迎下载。
