基于AIops的智慧运营大脑探索与实践

基于AIops的智慧运营大脑探索与实践中国电信湖北公司GOPS 全球运维大会 2023 · 上海站个人介绍张遴中国电信湖北IBOC云平台与安全保障室经理中国电信集团高级专家、 云架构师和内训师目 录CONTENTS研发背景从融合监控到智能监控应用案例123研发背景GOPS 全球运维大会 2023 · 上海站IT上云后对运维的挑战传统Oracle架构演变为全云化、全分布式架构,监控对象几何级增长, 调用承载关系日趋复杂,原先分散的监控手段已经不能满足上云后系统运维的要求分布式架构带来的挑战IT系统上混合云的挑战业务生态圈带来的挑战n维护对象:从几个到上千个;n监控对象关系:从简单对应到极其复杂,人力维护无法胜任;n数据分片、异地存储,传统维护模式难以为继;n上云系统PaaS层用自有研发的组件,IaaS层上混合云,原属地化维护变为多个单位维护;nIaaS/PaaS/SaaS层的故障难以关联分析,快速定位;n采用云原生架构,原有基于Oracle及传统架构的运维手段、经验不可用;n应用间调用关系复杂,传统监控模式无法做到先于客户发现问题,先于投诉解决故障监控对象:几何级数增长,人力维护不能胜任调用承载关系极其复杂,亟待引入运维工具应用软件:硬件:上千个微服务几套Oracle19类42种清单,将追随行业更新可数小型机成千上万硬件中间件:几个Jar包GOPS 全球运维大会 2023 · 上海站云上IT运维需求n 工具集市:支持低代码开发运维工具,形成工具集市并共享;n 知识共享:建立企业级运维知识库n 关联监控:通过主数据治理,拉通从应用到组件、主机的关联关系,实现故障根因快速定位n AI注智:引入AI算法,实现动态告警阈值及故障趋势预测、关联分析、根因分析n 统一监控:按系统/场景/专业等维度,整IaaS/PaaS/SaaS的监控手段,实现全省IT系统监控统一纳管n 统一调度:固化常见故障自动化处理手段,探索实现故障自动发现、自动调度、自动修复;集中管控日常巡检等作业计划n 统一展现:建设可视化大屏,数据、系统可视监控赋能运维赋智运维生态从融合监控到智能监控GOPS 全球运维大会 2023 · 上海站总体目标:云-网-业-数-安融合监控体系统一采集统一调度融平台融云天翼云腾讯云阿里云华为云融网专线专网网络拓扑网络安全融AI知识图谱故障自愈故障预测数字孪生IaaSPaaSSaaS各类IT系统、平台统一展现统一监控自研融合监控平台-智慧运营大脑自研目标p 急用先行:统一监控各类IT系统和场景,解决IT监控分层割裂、故障根因定位难、手段少的问题,提升系统稳定性;p All In One :一个底座,统一纳管云/网/数/业/安监控,涵盖IaaS/PaaS/SaaS各层面,支持各类常见监控手段;p 监控四融:融云、融网、融平台、融AIp 对内对外:对内做深做广,云网自智,对外能力外化,服务政企客户产数;GOPS 全球运维大会 2023 · 上海站总体架构总体架构:六中心一门户统一门户PC门户元宇宙监控中心多租户手机门户(建设中)微信机器人……基础配置中心CMDB数据源任务调度框架数据字典监控配置组织机构角色权限云网指标智能监控中心拨测监控接口监控投诉监控日志监控主机监控智能工具中心可视化开发授权单表维护API配置能力开放专用场景维护服务编排SQL配置动态阈值AI中心大模型趋势预测关联分析自然语言知识图谱智能调度中心事件侦测告警收敛处置策略协同推送自动巡检作业计划机房监控服务监控智能知识中心智能采编知识图谱认知搜索智能推荐汇聚库日志平台kafka大网网元云眼北向接口大数据平台……智慧运营核心能力数据来源p统一门户−多租户PC门户−元宇宙虚拟监控中心p基础配置中心−内置多种监控源配置模版、零代码配置监控点、CMDBp智能监控中心−跨IaaS/PaaS/SaaS的聚合监控−低代码可视化大屏p智能调度中心−故障自愈、告警调度、自动巡检pAI中心−动态阈值、故障趋势预测、知识图谱、NLP、大模型p智能工具中心−自研运维工具集市p智能知识中心−基于大模型的运维知识库GOPS 全球运维大会 2023 · 上海站总体部署模式:1+X两级部署智慧运营大脑行业运营大脑行业运营大脑…电信侧部署监控告警上传故障预测下发支持SaaS版本(智慧运营大脑)和私有化部署(行业运营大脑)两种版本,根据客户网络等不同场景灵活选择适用的版本.客户侧部署1:智慧运营大脑X:行业运营大脑平台部署运营商侧集中部署客户内网单独部署一套,独立运行服务模式SaaS应用,多租户模式本地监控,只服务当前客户安全保障不同客户的接入、采集、业务和数据均物理隔离监控数据不出客户机房网络需求无需客户侧提供服务器,监控点需与电信侧网络打通需客户提供主机等运行环境,无需对外部网络开放适用场景使用电信天翼云、专线等云网融合产品的客户安全保密要求高,非天翼云为主,私有云客户能力特性快速投产,故障自愈、预测、图谱等AI功能丰富轻量化部署,积木式按需搭建组件天翼云网管资源中心综合网管…智慧运营大脑多租户架构GOPS 全球运维大会 2023 · 上海站配置中心-整合多维监控数据源,CMDB主数据治理应用系统研发云应用模块容器实例云翼(普罗米修斯)ccse内存使用率CPU使用率teledb云眼(北向接口)telepgdbproxyCtg_cache集群实例Ctg_mqzookeeper……Cpu使用率主机监控(Zabbix)内存使用率磁盘IO文件系统微服务专线网络监控(综告/snmp)网络时延吞吐量链路关系API调用成功率日志监控(ES)API调用次数API耗时慢SQL机柜温度数据中心动环业务发展业务发展客户投诉卡单错单…话务量客户感知接通率投诉量派单量校园营销重点场景停复机营业效能……空调状态机房湿度机房流量等CRM接口拨测业务能力计费接口拨测编排接口拨测…….SQL脚本业务环节服务编排业务埋点…….监控底座统一采集CMDB主数据治理打通集团翼龙、省内主机、网络、日志、动环、业务等,汇聚整合142个系统、2545个saas指标、15753个paas指标、3631个iaas指标,120个其他指标,共计2.2万余个监控点,并纳入CMDB资产库统一管理……实例数指标数Saas19652545PaaS272115753IaaS7903631其它119120Pp埋点日志应用性能服务调用路径服务慢请求服务异常请求GOPS 全球运维大会 2023 · 上海站配置中心-监控及告警规则零代码配置内置100余种监控点零代码配置模版,采用零代码方式进行SQL脚本、API接口、服务拨测等监控指标、阀值、告警规则配置,降低入门门槛。指标源监控来源采集对接方式业务能力省内各业务系统API接口拨测,网页拨测,EOP日志业务环节省内各业务系统多数据源的SQL脚本微服务省内各业务系统Pinpoint埋点数据慢SQL清单省内平台数据库慢SQL日志集团PaaS组件北向接口Kafka,ES容器云翼平台,省内平台Prometheus脚本,自研拨测Agent主机省内平台Zabbix内网省内平台远程Shell脚本Ping拨测交换机、防火墙省内平台SNMP协议存储系统省内平台Kafka,API对接动力环境省内平台Socket对接

立即下载
综合
2025-05-14
26页
8.74M
收藏
分享

基于AIops的智慧运营大脑探索与实践,点击即可下载。报告格式为PDF,大小8.74M,页数26页,欢迎下载。

本报告共26页,只提供前10页预览,清晰完整版报告请下载后查看,喜欢就下载吧!
立即下载
本报告共26页,只提供前10页预览,清晰完整版报告请下载后查看,喜欢就下载吧!
立即下载
水滴研报所有报告均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。
相关图表
公司综合毛利率 图 4:公司分产品毛利率
综合
2025-05-14
来源:年报点评:2024年盈利有所改善,涤纶长丝景气复苏有望提振业绩
查看原文
公司历年业绩 图 2:公司收入结构
综合
2025-05-14
来源:年报点评:2024年盈利有所改善,涤纶长丝景气复苏有望提振业绩
查看原文
表 7.11 风险项与训练主题匹配
综合
2025-05-14
来源:中国民航循证训练(EBT)数据报告
查看原文
表 2-17 截至 2024 年底北京市执业专利代理师区域分布
综合
2025-05-14
来源:2025年北京知识产权服务业蓝皮书-首都知识产权服务业协会
查看原文
表 2-6 2024 年我国经专利代理机构代理并获授权的专利数量
综合
2025-05-14
来源:2025年北京知识产权服务业蓝皮书-首都知识产权服务业协会
查看原文
表 2-5 截至 2024 年底北京市专利代理机构分支地域分布前十
综合
2025-05-14
来源:2025年北京知识产权服务业蓝皮书-首都知识产权服务业协会
查看原文
回顶部
报告群
公众号
小程序
在线客服
收起