中国联通数字化监控平台稳定性保障工具落地实践

中国联通数字化监控平台稳定性保障工具落地实践曹家豪 联通软件研究院 项目经理目 录CONTENTS稳定性保障工具演进历程1稳定性保障工具落地场景及成效2当前面临的挑战及未来展望301 稳定性保障工具演进历程GOPS 全球运维大会 2023 · 上海站数字化转型中系统安全生产痛点问题工具职责范围的演进:覆盖广度及深度不断增加单系统应用维度根因定位几个核心系统被动应急故障统一调度系统具备应急预案故障点人工恢复统一变更入口工具建设集团+省分几百套系统跨系统全链路定界诊断主动预防集团+分子公司整体态势感知混沌工程故障自愈变更追踪变更管控体系建设故障发现与诊断故障恢复与应急故障预防故障调度体系演进分布式架构挑战运维生态挑战数智运维挑战 端到端稳定性保障体系缺失,自动化、智能化故障处理能力不足 故障处理过多依赖专家经验,故障没有沉淀为有效的资产 故障处于被动防御,救火,运维大数据未被合理价值挖掘 工具重复:工具按烟囱式建设,能力分散 能力割裂:运维工具能力割裂不成体系 数据孤岛:应用、数据库、中间件、云平台、基础设施各管自身 维护对象:系统节点、微服务数量几何级数增加 调用关系:从简单对应到极其复杂,人力维护无法胜任 数据分片、异地存储,传统维护模式难以为继随着云原生技术的不断成熟,企业数字化转型也在不断加速,企业IT架构进入云原生时代,多云多集群部署已经成为常态和趋势,几何增长的云资源、微服务以及复杂化的调用关系与业务场景,传统人肉运维难以为继,如何保障系统的全面稳定,保证业务流程的高效运转,为系统运营提出了不小的挑战。GOPS 全球运维大会 2023 · 上海站稳定性保障工具建设历程• 工具化建设2019• 产品化建设2020-2021• 体系化建设2022-2023稳定性保障工具的建设与演进从来不是一蹴而就的,是基于当前的现状与存在的问题,提出解决方案与目标规划,充分借鉴与对标先进的行业经验,从“走出去”到”引进来“,逐步由工具产品化至制度、管理体系化转变的过程。监控工具测试工具运营响应工具监控管理产品线稳定性测试产品线配置管理产品线基础能力线自动化运维产品线故障管理产品线制度规范保障组织架构保障平台工具保障运营机制保障工具化产品化体系化自动化智能化无人值守GOPS 全球运维大会 2023 · 上海站稳定性保障工具建设历程一个目标,依托四大保障,聚焦研运流程中四个阶段,对应十五项核心工作,严格把控七个关口,将安全生产稳定性保障左移,在入网控制时介入,对入网控制、发布上线、故障预防、故障发现、故障定位,故障恢复、故障改进提供端到端工具支撑。核心业务链路深度治理做实安全生产,提升IT系统稳定性架构设计研发测试生产变更运营支撑稳定性架构设计版本管理变更管理链路识别监控管理故障预防容量管理故障发现故障响应故障定位故障应急研发测试故障改进故障演练重保管理设计关验证关变更关应急关上线关监控关优化关制度规范保障运营机制保障组织架构保障平台工具保障02 稳定性保障工具落地场景及成效GOPS 全球运维大会 2023 · 上海站稳定性保障工具聚焦领域数字化监控平台聚焦全栈可观测性1、涵盖业务层、前端触点层、网关层、应用层、组件层、资源层的全链路追踪2、指标、链路追踪、日志三位一体斧实现故障快速发现、根因准确定位、故障快速恢复、问题深度刨析1、全层级变更追踪2、任务流程线上化绘制、管控,统一入口管理调度3、技术监督实现变更管控1、故障事前制定应急预案与应急演练2、故障事中形成故障、监控、调度态势感知能力,实现业务快速抢通3、故障事后治理追踪全流程线上化闭环管理,确保故障经验有效沉淀,整改措施有效落地1、系统深度健康体检,全链路性能隐患分析2、系统容量隐患深度分析3、统一隐患闭环治理告警、诊断、自动化作业能力组合贯穿‘监’与‘控’,实现多场景故障自愈1、全链路读、写压力测试、评估链路容量水位2、接口、UI自动化巡检及时发现业务异常变更追踪与管控故障自愈隐患管理稳定性测试故障管理GOPS 全球运维大会 2023 · 上海站可观测性建设:指标实现涵盖业务、前端触点、应用、云平台、组件、基础资源的全层级指标数据采集及标准化,统一接入、存储、分析处理标准,提供可观测性能力数据基础。 业务发展量、业务流程积压量、业务突变异常、业务关键稽核点等 核心业务场景、核心业务环节、核心业务链路拓扑 白屏、慢响应、弹窗日志等核心业务系统方自定义Promethues exporter调用链接口业务打标告警配置应用核心场景、核心业务链路人工梳理上报调用链agent采集应用指标、trace网关中间件数据库主机网络Promethues exporter前端触点浏览器 JS埋点APP SDK云平台snmp协议+Promethues exporter云平台维护方自定义Promethues exporter网络拓扑同步上报 卡顿、崩溃、错误等 调用量、响应时间、异常量等 应用调用trace 方法调用明细 云平台健康度、集群节点、pod容器指标 网关:KONG、LB、Nginx等 中间件:Kafka、MQ、Zookeeper等 数据库:MySQL、Clickhouse、Elasticsearch等 主机:内存、磁盘、CPU、网络指标等 网络出、入流量、并发会话数、连接数等 数据中心、网络设备、主机拓扑映射关系统一标签规范标准+自定义监控告警数据可视故障诊断隐患分析故障预防...Clickhouse应用时序指标、trace、方法调用明细Prometheus业务、服务、组件、资源时序指标Neo4j+Redis拓扑数据GOPS 全球运维大会 2023 · 上海站可观测性建设:链路追踪支持跨系统、跨云平台、跨数据中心链路拓扑,通过分数据中心汇总串联,完成跨系统调用实时追踪和方法清单级根因定位,接入应用6000+,日均处理600亿数据。汇总数据中心告警收敛链路自动拓扑根因定位业务、应用维度链路展现应用性能分析告警配置Neo4jCollector-serverFlinkClickhousekafka系统Dagent系统EagentNacosRedisCMDB实例id、容器id主机ip、机房网络设备云平台告警计算聚合后指标链路计算清单查询分数据中心Collector-server系统Aagent系统Bagent系统CagentFlinkkafka告警计算指标聚合明细分析NacosClickhouse存储集群跨数据中心链路自动串连业务报文查询调度转发节点存储集群查询业务配置打标应用根因定位应用性能分析链路调用清单明细,方法级分析链路自动拓扑全层级告警墙应用实例、主机串联GOPS 全球运维大会 2023 · 上海站可观测性建设:日志分析通过统一规范的日志采集、分布式存储能力、日志实时检索与异常检测能力,应对在分布式云化技术架构的演进背景下,剧增的集中系统日志数据量带来的挑战,解决在较大规模集中系统日志查询和报文查询方面效率低和不准的问题,提升故障和工单问题定位效率。日志采集主机组件应用其他AgentSDK日志应用全文检索模版提取过滤脱敏日志监控异常检测报表可视日志处理、存储、告警判定Kafka流式worker处

立即下载
综合
2025-05-21
25页
10.46M
收藏
分享

中国联通数字化监控平台稳定性保障工具落地实践,点击即可下载。报告格式为PDF,大小10.46M,页数25页,欢迎下载。

本报告共25页,只提供前10页预览,清晰完整版报告请下载后查看,喜欢就下载吧!
立即下载
本报告共25页,只提供前10页预览,清晰完整版报告请下载后查看,喜欢就下载吧!
立即下载
水滴研报所有报告均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。
相关图表
图表 29 安捷明医疗产品布局
综合
2025-05-21
来源:2025年高端眼科设备报告-国产有望全面崛起,市场格局重构中-动脉智库
查看原文
图表 28 Intalight 赛炜产品创新历程
综合
2025-05-21
来源:2025年高端眼科设备报告-国产有望全面崛起,市场格局重构中-动脉智库
查看原文
图表 26 国产高端眼科设备出海动态
综合
2025-05-21
来源:2025年高端眼科设备报告-国产有望全面崛起,市场格局重构中-动脉智库
查看原文
图表 25 国产高端眼科设备品牌分阶段发展策略
综合
2025-05-21
来源:2025年高端眼科设备报告-国产有望全面崛起,市场格局重构中-动脉智库
查看原文
图表 24 眼科手术机器人产品盘点
综合
2025-05-21
来源:2025年高端眼科设备报告-国产有望全面崛起,市场格局重构中-动脉智库
查看原文
图表 23 单模态、多模态、全模态产品特点
综合
2025-05-21
来源:2025年高端眼科设备报告-国产有望全面崛起,市场格局重构中-动脉智库
查看原文
回顶部
报告群
公众号
小程序
在线客服
收起