蚂蚁集团变更管控实践

蚂蚁集团变更管控实践俞灏宣蚂蚁集团GOPS 全球运维大会 2023 · 上海站个人介绍俞灏宣蚂蚁集团-技术专家蚂蚁集团智能变更管控平台与智能变更异常检测技术负责人,变更管控开源社区 AlterShield负责人。在高可用技术领域沉淀5年,在变更管控领域有丰富的实践经验。帮助蚂蚁集团防控了近千笔生产环境变更故障,并初步实现了蚂蚁集团的变更无人值守。目 录CONTENTS变更管控的意义变更管控的方法和架构变更管控如何智能化我们的未来规划123401 变更管控的意义GOPS 全球运维大会 2023 · 上海站变更管控的价值与复杂性亚马逊系统复杂度NETFLIX系统复杂度系统复杂度无法避免:任何设计系统的组织产生的所有设计都将受限于组织间的沟通结构。稳定性问题引发因素:变更是导致线上稳定性问题的主要引发因素,如何进行变更风险防控,降低企业的稳定性风险。编码和变更问题占比一半以上GOPS 全球运维大会 2023 · 上海站研发效率•技术研发:追求敏捷开发、DevOps•业务运营:高效的配置变更,快速上线运营活动接口依赖、数据依赖、消息依赖…系统复杂性组织协同随着企业/业务体量的增大,研发模式必然会向着更多元、更复杂的形式演进。中间会存在大量的沟通成本与信息差变更管控的价值与复杂性02 变更管控的方法与架构GOPS 全球运维大会 2023 · 上海站如何定义变更1.变更 ≠ ops2.变更是对线上服务“状态”的修改3.操作由内部人员发起OCMS(Open Change Management Specification)• 从技术视角,定义变更的信息与技术模型• 兼容不同背景下的各类变更,做到“统一化”• 屏蔽上层业务带来的信息差异,为后续变更防御、变更搜索、变更审计提供标准模型• 为其他技术风险领域能力,提供标准的信息结构• 让更专业的人做更专业的事代际名称支持的变更流程和生效方式G0以事件通知的协议接入,不提供管控能力,仅可做变更事件的通知、搜索G1对于无法按照批次拆分一步一步生效的变更,做单节点的变更流程管控G2可以按照批次拆分生效的变更(如集群服务器重启),做完整工单的变更流程管控G3在有完整的变更工单管控的基础上,增加了变更提单阶段的管控G4在变更提单管控的基础上,增加了变更无人值守的决策能力GOPS 全球运维大会 2023 · 上海站如何防控变更中的风险1.不可能100%提前发现所有问题2.使变更引发的风险可控/可接受3.相对完善的前后置防御能力4.随着变更的持续执行,风险的发生概率是逐步收敛的GOPS 全球运维大会 2023 · 上海站灵活的变更防御框架1. 防御能力路由:针对不同变更,通过配置表达式的形式,路由到不同防御能力集合,满足不同背景下变更的防御检测多样性诉求2. 防御能力调度与并行执行:各防御能力间相互独立,按照一个“统一的结构”进行返回3. 开放性的防御SPI:不同部门/业务的风险防控人员,可根据自己的需求,以FaaS化的形式进行防御校验逻辑的集成03 变更防控如何智能化GOPS 全球运维大会 2023 · 上海站从研发的视角入手监控我的CPU利用率有没有飙升?我的日志里面有没有Error?我的上下游系统的服务,有没有报错时序指标的异常检测日志异常堆栈的变化情况检测链路级别的业务错误检测日志上下游GOPS 全球运维大会 2023 · 上海站时序指标异常检测 – 智能变更监控GOPS 全球运维大会 2023 · 上海站日志堆栈异常检测 – 新增/突增异常训练阶段:将通用错误日志中的异常信息进行正则化处理,并将处理后的日志正则模板按照相似度进行分类,构造该系统的日志模板库。预测阶段:将系统实时采集异常日志信息同样进行正则化处理,并与模板库中全量模板进行相似度拟合,得出该异常是否为新增异常的结论;针对突增异常,需要计算异常模板计数,预测思路和时序异常检测思路相似。GOPS 全球运维大会 2023 · 上海站上下游系统服务报错 – 链路异常检测简单模式:通过trace日志聚合即可反映出系统间每笔流量的调用异常情况以及业务错误码的变化情况,但这种方式的问题在于计算量过于庞大,极度损耗资源。结合中间件:将每笔流量的调用携带特殊标记进行透传染色,这样既能明确感知一笔流量所经过的系统链路,又能在透传的同时携带系统交互的关键信息,从而实现整条链路的异常检测。GOPS 全球运维大会 2023 · 上海站配置值自适应校验04 我们的未来规划GOPS 全球运维大会 2023 · 上海站开源社区:AlterShield云原生场景快速集成:通过KubernetesOperator机制,将OCMS部分下沉到集群中,实现了滚动升级场景的免接入。同时,AlterShield Operator本身提供了分批发布的托管方式,无需再集成其他CI/CD工具。但AlterShield Operator也保留了其他CI/CD的集成入口当前阶段:AlterShield及其Operator计划于11月初推出v1.0正式版本,支持上述云原生场景的快速集成

立即下载
综合
2025-05-14
18页
4.74M
收藏
分享

蚂蚁集团变更管控实践,点击即可下载。报告格式为PDF,大小4.74M,页数18页,欢迎下载。

本报告共18页,只提供前10页预览,清晰完整版报告请下载后查看,喜欢就下载吧!
立即下载
本报告共18页,只提供前10页预览,清晰完整版报告请下载后查看,喜欢就下载吧!
立即下载
水滴研报所有报告均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。
相关图表
图表 6 2025 年一季度信用债隐含评级迁移矩阵
综合
2025-05-14
来源:2025年一季度中证估值产品质量分析报告
查看原文
表格 2 曲线在指定期限与可靠行情距离均值(BP)
综合
2025-05-14
来源:2025年一季度中证估值产品质量分析报告
查看原文
表格 1 中证债券收益率曲线族类别及名称
综合
2025-05-14
来源:2025年一季度中证估值产品质量分析报告
查看原文
黄金多数时间里均为官方储备总回报带来积极贡献 中国外汇储备季度回报率构成分析*
综合
2025-05-14
来源:2025年一季度中国黄金市场回顾与趋势分析
查看原文
中国官方黄金储备连续两个季度增长
综合
2025-05-14
来源:2025年一季度中国黄金市场回顾与趋势分析
查看原文
中国市场黄金 ETF 创下有记录以来最强劲的季度表现
综合
2025-05-14
来源:2025年一季度中国黄金市场回顾与趋势分析
查看原文
回顶部
报告群
公众号
小程序
在线客服
收起