国产适配:异构算力管理与成本优化

国产适配:异构算力管理与成本优化主讲人:吴伟 - 腾讯专有云PaaS平台Tencent TCS1、趋势与挑战2、Tencent TCS 异构算力管理平台解决方案3、成功案例算力短缺的背景下,加速芯片类型呈现出多元化的趋势《中国半年度加速计算市场(2024下半年)跟踪》报告,2025年3月,https://www.idc.com/getdoc.jsp?containerId=prCHC53286125Ø2024年中国加速服务器市场规模达到221亿美元,同比2023年增长134%。Ø到2029年将超过千亿美元,其中非GPU服务器市场规模将接近50%。Ø2024年,中国加速芯片的市场规模增长迅速,超过270万张。从技术角度来看,GPU卡占据70%的市场份额。Ø注:2022年中国加速芯片出货量约为109万张,其中英伟达市场份额约为85%。如何高效管理和调度这些异构算力资源如何高效管理和调度这些异构算力资源,同时保持成本控制与业务增长之间的平衡,成为企业亟待解决的关键问题。Ø 成本高昂、供应不稳,需求激增,这三点勾勒出了中国AI算力的整体发展背景。Ø 大多数AI加速芯片厂商还无法实现规模化出货,更多是以参与混合型算力的方式,加入到企业AI集群的建设当中。由此,异构算力开始成为企业和数据中心新的需求。算力资源分散难以统一管理缺乏智能化监控运维及故障自愈能力复杂的资源配置和调度资源利用率低下导致成本飙升主要挑战如何提升AI场景的硬件故障运维效率2024年7月23日,Meta发布了当时最强大的开源模型 Llama 3.1 405B,在其发布的论文中提到:Ø为期54天训练,发生了419次非预期中断,其中58.7%中断是GPU相关的故障,严重影响训练效率和模型性能。Ø除了3次人工处理介入,其他故障全部实现自动化处理。对AI场景的硬件稳定性和故障管理上需要投入更多关注,故障的自动处理至关重要《The Llama 3 Herd of Models》• Approximately 78% of the unexpected interruptions are attributed to confirmed• hardware issues, such as GPU or host component failures, or suspected hardware-related issues like silent data• corruption and unplanned individual host maintenance events. • GPU issues are the largest category, accounting• for 58.7% of all unexpected issues. • Despite the large number of failures, significant manual intervention was• required only three times during this period, with the rest of issues handled by automation.AI应用部署所遇到的挑战依赖管理复杂Ø依赖特定库/框架版本/软件版本,易出现兼容性问题Ø环境配置耗时,部署失败率高扩展性不足Ø流量激增时,手动扩容效率低Ø响应延迟、服务不稳定版本控制缺失Ø模型迭代缺乏标准化记录,回滚和性能对比困难Ø调试效率低,难以复现历史结果环境迁移困难Ø开发、测试、生产环境差异导致应用无法无缝移植Ø部署周期长、跨团队协作障碍由于各种因素,传统的AI应用部署很繁琐且容易出错:容器化/Kubernetes是一种有效打包和部署AI应用的技术,它解决了依赖管理、可扩展性、版本控制和可移植性相关的问题。云原生技术为AI业务创新提供了强大的动力ü伴随着AI 技术的快速发展,企业对高性能、稳定、灵活且低成本的基础设施需求日益迫切。云原生技术凭借其独特的优势正在成为AI 开发与部署的最佳选择,在资源效率和开发部署效率上为AI应用赋能。ü云原生AI 是云原生不断发展的延伸领域。云原生AI(CNAI)是指使用云原生原则构建和部署人工智能应用程序和工作负载的方法和模式。云原生AI 核心能力更快的开发与部署容器化、编排与调度、gang/numa-aware、跨平台一致性、镜像加速、GitOps更高的资源利用率异构算力接入、动态调度、GPU虚拟化、高性能网络与存储更智能的运维与管理自动扩缩容、故障自愈、可观测、稳定性更丰富的技术生态kubeflow、ML/DL工具和框架•OpenAI从2017开始在Azure Kubernetes上进行大规模机器学习的研究与开发,通过利用云原生技术的动态调度、自动扩容、一致性等优势,带来了显著的成本降低及快速迭代业务创新。(参考文献:https://kubernetes.io/case-studies/openai)•Google提供的GCP平台的产品—CloudRun和GoogleKubernetes Engine(GKE)帮助AI抽象基础设施、协调工作负载,为AI工作负载提供开放、便携的解决方案。(参考文献:https://www.pnrjournal.com/index.php/home/article/view/1367/1141)•幻方基于云原生技术构建了HAI Platform 训练平台,成功支持在1500+计算节点上稳定运行深度学习训练任务。(参考文献:https://www.high-flyer.cn/en/blog/hai-platform/)CNCF 发布了首份关于云原生人工智能 CloudNative AI 的白皮书,2024 年 3 月...1、趋势与挑战2、Tencent TCS 异构算力管理平台解决方案3、成功案例Tencent TCS异构算力管理平台解决方案Ø Tencent TCS异构算力管理平台解决方案,助力企业突破传统算力管理的局限,实现对异构甚至异地的不同算力资源的统一管理与运营能力。Ø 通过提供一站式的异构算力资源整合、调度、运营服务,显著提升资源使用的效率和灵活性,有效控制并优化成本,为企业业务创新发展提供持续动力。异构算力统一管理智能运维与故障自愈异构算力灵活调度资源利用率提升与成本优化方案核心能力• 异构算力集群统一接入• 统一云原生部署规范,快速完成集成与部署• 异构算力资源的灵活分配与调度• 拓扑感知调度,提升性能• 大规模集群运维实践,提升算力效能• 全面的集群监控管理• GPU故障检测与自愈• 统一的运维运营门户• 内核态GPU共享,提升资源利用率• GPU在离线混部,支撑训推一体业务部署• FinOps成本中心,精细化运营分析Tencent TCS异构算力管理平台解决方案高可用容灾管理 DRMS故障演练 Oscar备份恢复 BRMS多地多中心云资源管理CentOS/RHELTencentOS Server银河麒麟服务器版物理服务器Intel x86AMD x86海光 x86鲲鹏 ARM飞腾 ARM统信 UOS 服务器版更多...更多...更多...异构算力管理与调度平台管理统一控制台

立即下载
综合
2025-07-07
34页
24.28M
收藏
分享

国产适配:异构算力管理与成本优化,点击即可下载。报告格式为PDF,大小24.28M,页数34页,欢迎下载。

本报告共34页,只提供前10页预览,清晰完整版报告请下载后查看,喜欢就下载吧!
立即下载
本报告共34页,只提供前10页预览,清晰完整版报告请下载后查看,喜欢就下载吧!
立即下载
水滴研报所有报告均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。
相关报告
热门报告
加入社群
回顶部
报告群
公众号
小程序
在线客服
收起