汪喆:字节跳动资源画像和时间序列预测的运营实践

字节跳动资源画像和时间序列预测的运营实践汪喆字节跳动专注于云原生调度策略方向,在在离线混部、统一调度等方向有大规模集群下的实战与落地经验。目前就职于字节跳动,主要参与云原生资源效能方向的工作;Katalyst开发者。请替换您的照片汪喆公司职位字节跳动云原生架构师G O P S 全 球 运 维 大 会 暨 X O p s 技 术 创 新 峰 会 2 0 2 4 · 北 京 站目录集群资源运营未来展望时间序列预测与资源画像时序预测在效能提升中的应用G O P S 全 球 运 维 大 会 暨 X O p s 技 术 创 新 峰 会 2 0 2 4 · 北 京 站集群资源运营01G O P S 全 球 运 维 大 会 暨 X O p s 技 术 创 新 峰 会 2 0 2 4 · 北 京 站G O P S 全 球 运 维 大 会 暨 X O p s 技 术 创 新 峰 会 2 0 2 4 · 北 京 站集群资源运营资源超分规格推荐提 升 部 署密 度真实利用率调度重调度资 源 稳 定性潮汐混部在离线常态混部HPAVPA弹 性 伸 缩 , 分 时 复 用拓扑感知调度减少集群资源碎片提 升 有 效 利 用 率集 群 资源 运 营G O P S 全 球 运 维 大 会 暨 X O p s 技 术 创 新 峰 会 2 0 2 4 · 北 京 站集群资源运营静态配置定时任务实时数据驱动预测数据驱动潮汐混部、HPA灵活度差,准确性低提前响应,提升弹性资源质量兼容周期性变动场景常态混部、负载感知滞后性,先数据后响应无法感知未来风险静态超分依赖人工经验业务峰谷导致资源浪费时间序列预测与资源画像02G O P S 全 球 运 维 大 会 暨 X O p s 技 术 创 新 峰 会 2 0 2 4 · 北 京 站G O P S 全 球 运 维 大 会 暨 X O p s 技 术 创 新 峰 会 2 0 2 4 · 北 京 站时间序列预测应用的负载往往具有周期性:如何衡量序列的周期性强弱?如何结合序列的频域信息和时域信息,更好地对序列进行预测?在线(短期)数据预测:如何对一个负载不同的数据分布模式进行预测?应对更多的用户场景:开箱即用的算法模块G O P S 全 球 运 维 大 会 暨 X O p s 技 术 创 新 峰 会 2 0 2 4 · 北 京 站时间序列预测ATFNetATFNet主要包括三部分:1. T-Block从时域获取局部依赖性2. F-Block从频域获取全局依赖性3. The Dominant Harmonic Series Energy Weighting根据输入序列的周期性动态调整时域和频域模块的权重"ATFNet: Adaptive Time-Frequency Ensembled Network for Long-term Time Series Forecasting." arXiv preprint arXiv:2404.05192 (2024)G O P S 全 球 运 维 大 会 暨 X O p s 技 术 创 新 峰 会 2 0 2 4 · 北 京 站时间序列预测Q1. 实际系统的工作负载数据包含不同的工作负载模式和数据分布漂移A1. 首先将预测问题定义为时间序列的在线区间预测问题 (OnPred-Int)。然后提出了一种集成策略,结合各种基本预测模型以适应不同的工作负载模式。Q2. 为了保证SLA,负载预测的结果尽可能比真实值稍高一些A2. 引入Adaptive Conformal Inference"IPOC: An Adaptive Interval Prediction Model based on Online Chasing and Conformal Inference for Large-Scale Systems." Proceedings of the 29th ACM SIGKDD Conference on Knowledge Discovery and Data Mining. 2023.G O P S 全 球 运 维 大 会 暨 X O p s 技 术 创 新 峰 会 2 0 2 4 · 北 京 站时间序列预测分解集成思想基于传统统计预测方法,利用分解集成预测思想优化,开箱即用,适配更多用户场景。G O P S 全 球 运 维 大 会 暨 X O p s 技 术 创 新 峰 会 2 0 2 4 · 北 京 站资源画像资源画像对上层提供统一的抽象资源/接口,便于应用对接。对下可以与ByteBrain服务(开箱即用,输入历史数据,输出预测结果)以及时序预测系统(内部AI系统),获取预测结果。时序预测在效能提升中的应用03G O P S 全 球 运 维 大 会 暨 X O p s 技 术 创 新 峰 会 2 0 2 4 · 北 京 站G O P S 全 球 运 维 大 会 暨 X O p s 技 术 创 新 峰 会 2 0 2 4 · 北 京 站时序预测在效能提升中的应用G O P S 全 球 运 维 大 会 暨 X O p s 技 术 创 新 峰 会 2 0 2 4 · 北 京 站时序预测在效能提升中的应用 - 动态超分通过webhook拦截并修改节点资源完成超卖,不入侵kubernetes系统。可在生产集群热插拔。基于负载的时序预测数据实现更精确的超分比预测,结合实时数据对异常负载进行校正。增加节点CPU load、内存回收速率等干扰检测维度,提供禁用调度、驱逐等多种干扰缓解措施。热插拔动态超分干扰检测能力增强G O P S 全 球 运 维 大 会 暨 X O p s 技 术 创 新 峰 会 2 0 2 4 · 北 京 站时序预测在效能提升中的应用 - 动态超分Overcommit webhook通过拦截kubelet 上报请求,修改节点可用资源总量,实现业务无感的资源超分portrait controller资源画像,基于时序预测服务生成工作负载的时序预测数据katalyst agent单机资源管理agent,基于节点实时监控指标计算超分比,并上报至集群。overcommit controller基于应用画像计算节点超分比,结合节点上报的实时数据对异常场景进行校正。G O P S 全 球 运 维 大 会 暨 X O p s 技 术 创 新 峰 会 2 0 2 4 · 北 京 站时序预测在效能提升中的应用 - 动态超分通过负载/应用的时序画像预估节点负载G O P S 全 球 运 维 大 会 暨 X O p s 技 术 创 新 峰 会 2 0 2 4 · 北 京 站时序预测在效能提升中的应用 - 动态超分某外部客户集群规模2500+分配率90%+利用率10%+超分前分配率125%集群规模缩减至2000+超分后内部存储集群CPU 30W C内存 900W G超分前CPU 60W C内存 950W G节省设备2000+超分后G O P S 全 球 运 维 大 会 暨 X O p s 技 术 创 新 峰 会 2 0 2 4 · 北 京 站时序预测在效能

立即下载
综合
2024-10-14
30页
8.96M
收藏
分享

汪喆:字节跳动资源画像和时间序列预测的运营实践,点击即可下载。报告格式为PDF,大小8.96M,页数30页,欢迎下载。

本报告共30页,只提供前10页预览,清晰完整版报告请下载后查看,喜欢就下载吧!
立即下载
本报告共30页,只提供前10页预览,清晰完整版报告请下载后查看,喜欢就下载吧!
立即下载
水滴研报所有报告均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。
相关图表
2023 年盈利基建工程企业经营及估值指标比较
综合
2024-10-14
来源:建筑与工程行业动态点评:化债力度加大,板块困境反转
查看原文
2023 年亏损基建工程企业经营及估值指标比较
综合
2024-10-14
来源:建筑与工程行业动态点评:化债力度加大,板块困境反转
查看原文
地方政府债务情况概览
综合
2024-10-14
来源:建筑与工程行业动态点评:化债力度加大,板块困境反转
查看原文
一品红 PE-Bands 图表6: 一品红 PB-Bands
综合
2024-10-14
来源:一品红(300723)AR882国内II期临床数据优异
查看原文
一品红:AR882 DCF 估值
综合
2024-10-14
来源:一品红(300723)AR882国内II期临床数据优异
查看原文
一品红:AR882 风险调整自由现金流估测
综合
2024-10-14
来源:一品红(300723)AR882国内II期临床数据优异
查看原文
回顶部
报告群
公众号
小程序
在线客服
收起