基于大模型驱动的云网全景可观测系统建设实践
基于大模型驱动的云网全景可观测系统建设实践高坤国泰君安证券股份有限公司IOE技术体系(集中式架构)集中式平台快速软、硬故障定界定位(一般问题闭环 < 30min)<应用逻辑>(java/C++)业务系统平滑迁移、应用多活、高性能、超大规模KXCP/KCBP/REDIS/Ngnix强一致性(交易+批量计算)SQL server/Oracle分钟级备切换,最低99.99%可靠性OS、x86硬件平台云化技术体系(云原生、分布式架构)云化、分布式架构中间件(消息、事务、缓存、调用链等)IaaS云底座证券新核心业务微服务框架云原生容器融合分析大数据平台分布式交易数据库DC1DC2DCn3类云化,6大技术点云原生技术体系IaaS云底座分布式交易数据库云原生容器基础设施融合分析大数据平台微服务框架中间件(消息、事务、缓存、调用链等)业务应用重构业务系统云原生化传统数据库分布化基础设施全面云化业务系统中间件分布式云原生架构基础设施全面云化传统数据库分布化业务系统云原生化承载各类业务系统生产、同城及异地灾备环境基于CloudStack上线开发测试云,实现计算和分布式存储统一管控金融云发展时间轴完成国家云平台课题验收,发布CMP1.0,实现IAAS资源自服务基于Openstack上线开发测试云2.0,发布CMP2.0,实现对异构资源的统一纳管上线生产云、开发测试容器云平台上线开发测试信创云,并发布基础资源服务平台1.0上线生产信创云,托管云,发布基础资源服务平台2.0,实现一云多芯管理建设开发测试云、生产云、集团协作云、开放生态云四朵云努力打造全行业领先的自主开发、自主掌控的国泰君安金融全栈云云总体布局2013年2014年2015年2017年2019年2020年规划路线加速云原生建设,完成“一云多芯”信创、非信创多元算力,资源统一管理,实现云边协同,资源敏捷交付 2023年 加速云原生基础设施建设夯实数字基础设施升级,扩大云资源规模,推进高效敏捷开发向以应用为中心的架构演进,实现应用敏捷开发,提升应用迭代速度2024年 云原生应用敏捷开发实现两地多中心全栈云原生服务能力全覆盖,完成存量系统整体迁移到全栈云。 2025年 全栈能力全覆盖承载各类业务系统开发测试环境承载资产管理、期货、创投等各子公司的业务系统承载量化私募、PB等外部客户的业务系统生产云开发测试云集团协作云开放生态云聚焦云原生底座资源部署,加速云原生体系与平台建设,完善和提升云原生服务能力,以科技服务云平台为载体,面向集团提供全面、易用、自主可控的云原生服务,提升资源交付质效,高效支撑业务敏捷创新。云平台通过标准的接入规范和部署规划,最大程度的减少其他云应用开发周期和难度,能够实现快速SaaS应用的上线交付。依托于此,国泰君安云计算团队,自研开发了云监控系统、云网流量分析、弹性文件系统、对象文件系统、文档中心、镜像站等云应用,为用户提供了更加便捷的云资源交付与服务。结合公司基础架构特点,为每个云服务设立独立的业务资源模型,通过该抽象模型,能够实现多区域、异构资源池的统一纳管,从而满足鲲鹏、飞腾、海光等国产信创芯片的云资源,实现了“一云多芯”的统一管理。正是借助此架构的优越性,使用户在无感知的情况下自助申请、创建云资源。作为云平台核心的组件,该应用集权限管理、配额管理、计费和事务管理于一体,通过权限校验与配额分配,确保云资源的合理分配,实现了整个云平台内部统一、协调运转。智慧中台一云多芯、多云部署自研云应用,提升云服务质量随着越来越多的核心业务系统迁移上云,云上业务的稳定直接影响着用户体验与服务质量,从应用服务可视化、应用调用追踪、故障诊断、业务保障、安全、审计、运营分析、调度等维度,针对云资源池业务分析及消费的需求越发突出。缺少云资源池上的应用服务可视化能力核 心 设 备 南 北 向 的 流 量 镜 像 采 集 点 无 法 覆 盖 资源 池 内 流 量 采 集 , 缺 乏 资 源 池 内 应 用 服 务 流 量数 据 包 的 全 量 采 集 手 段 , 使 得 业 务 运 行 处 在 黑盒 状 态 , 缺 少 资 源 池 内 的 应 用 服 务 可 视 化 能 力01现有监控手段不能满足复杂环境中的业务运维排障要求02缺乏零侵扰的全链路分布式追踪针 对 关 键 业 务 嵌 入 S D K 或 者 插 码 打 桩 的 方 式 ,对 业 务 开 发 语 言 、 框 架 有 着 严 格 的 要 求 , 需 要消 耗 大 量 时 间 维 护 嵌 入 式 S D K 代 码 , 对 于 边 缘组 件 疲 于 应 对 , 使 得 精 准 的 业 务 保 障 成 为 难 题 。 03缺乏历史故障问题回溯分析能力关 键 业 务 系 统 访 问 出 现 某 一 时 刻 或 单 次 请 求 故障 时 , 因 无 法 记 录 单 次 请 求 或 瞬 时 的 网 络 及 应用 请 求 状 态 及 性 能 指 标 , 所 以 不 能 对 故 障 问 题提 供 责 任 举 证 , 使 得 业 务 网 络 依 旧 带 病 运 行 ,存 在 隐 患04资 源 池 内 业 务 动 态 性 高 , 覆 盖 范 围 广 , 业 务 覆盖 的 资 源 范 围 可 能 实 时 动 态 伸 缩 , 目 前 监 控 手段 无 法 动 态 获 知 复 杂 的 业 务 访 问 调 用 关 系 , 无法 自 动 呈 现 业 务 的 端 到 端 全 链 路 流 量 拓 扑 图解决云网络的“黑盒在一云多芯环境建立云网络内的流量全景视图和运维、运营、安全管理机制,具备网络性能分析、网络回溯、资源回收、统计报表、网络全景拓扑全链路分析能力降低可观测运维复杂度在云原生环境中建设面向云内所有系统的高度自动化的可观测性平台,为云内应用提供量身打造的全栈、全链路、高性能数据完善公司金融云的管理为云上应用提供更优质的服务,提供面向业务系统在云内的自助分析能力,保障业务稳定运行,加速故障分析效率,快速定界,提升系统稳定性和运营效率在复杂的云基础设施及云原生环境下保障应用系统可靠稳定运行、减少故障修复时间,实现全链路数据监控、性能分析及故障快速定位,提升系统稳定性与运营效率覆盖数据中心云基础资源层虚拟化环境云原生环境云原生应用各 资 源 类 型 宿 主 机 、 虚拟 机 环 境容 器 环 境 , 包 括 信 创 、非 信 创 环 境云 原 生 中 间 件 、 云 原 生数 据 库 等 云 内 应 用按功能区部署数据分析层云原生数据分析节点云网观测系统观测应用观测......分析监控数据流量数据流量数据虚拟化数据云原生数据eBPF数据云环境数据......运维场景云网络故障诊断云网络历史回溯云网络流量拓扑云网络调用链跟踪......云网络数据服务覆盖虚拟化、云原生、云中间件、云数据库等云内应用,实现对云网络的可观测能力覆盖;结合CMDB等多源数据,实现对海量数据深入挖掘和分析;依托AI中心和多平台联动,提供不同运维场景的数据服务;可以多维度、数据化、可视化展现网络中的不同指标,实现了对异常网络事件的量化功能;同时,结合历史数据,分析不同层次的运行情况从流量引取、流量采集、数据存储等多个细分环节,实现由用户自主掌控的能力,
基于大模型驱动的云网全景可观测系统建设实践,点击即可下载。报告格式为PDF,大小5.3M,页数17页,欢迎下载。