鲍中帅:万卡级超大规模智算集群网络运维挑战及实战
万卡级超大规模智算集群网络运维挑战及实践鲍中帅科大讯飞·基础架构网络总监Ø 12年从业经验,擅长大规模网络架构设计及运维Ø 业内第一个超大规模国产万卡智算集群网络架构师Ø 亚太地区领先的人工智能企业数据中心网络部门负责人鲍中帅公司职位基础架构网络总监G O P S 全 球 运 维 大 会 暨 X O p s 技 术 创 新 峰 会 2 0 2 4 · 北 京 站目录大模型发展及国产化集群介绍万卡智算集群运维关键痛点万卡智算集群运维创新实践G O P S 全 球 运 维 大 会 暨 X O p s 技 术 创 新 峰 会 2 0 2 4 · 北 京 站大模型发展及国产化集群介绍01G O P S 全 球 运 维 大 会 暨 X O p s 技 术 创 新 峰 会 2 0 2 4 · 北 京 站G O P S 全 球 运 维 大 会 暨 X O p s 技 术 创 新 峰 会 2 0 2 4 · 北 京 站2022年11月30日ChatGPT正式发布上线2个月活跃用户过亿2023年3月15日发布GPT-411月7日发布GPT-4 Turbo当前用户量突破17亿认知大模型的“智能涌现”推动了通用人工智能的技术阶跃2023年10月Gartner发布2024年十大战略技术趋势,到2026年将有超过80%企业使用通用人工智能2023年12月11-12日中央经济工作会议强调:要大力推进新型工业化,发展数字经济,加快推动人工智能发展2023年4月28日中共中央政治局会议提出要重视通用人工智能发展2024年3月《政府工作报告》:深化大数据、人工智能等研发应用,开展“人工智能+”行动,打造具有国际竞争力的数字产业集群G O P S 全 球 运 维 大 会 暨 X O p s 技 术 创 新 峰 会 2 0 2 4 · 北 京 站国际大模型产业竞争目前呈现“激烈迅猛”之势Meta重磅发布LIMA 65B并于7月19日发布免费商用开源模型LIama 22023.052023.112024.2.152023.122023.0314日OpenAI发布多模态大模型GPT-4,综合能力远超ChatGPTOpenAIOpenAI7日凌晨发布GPT-4 Turbo,六大升级,支持128k上下文输入,同时推出OpenAI应用商店GPT StoreGoogle首次发布Gemini 1.0,多模态能力效果惊艳,MMLU测试中首次超过人类专家Google发布了新一代多模态大模型Gemini 1.5 Pro,最高支持1000万上下文长度,GSM8K评测全球第一2024.2.16OpenAI16日发布的文生视频模型,其效果显著超越了业界现有同类产品的水平2024.3.53月5日发布Claude 3支持200k上下文,更强的推理、数学、编码能力AnthropicG O P S 全 球 运 维 大 会 暨 X O p s 技 术 创 新 峰 会 2 0 2 4 · 北 京 站建成5个国产化云服务集群20亿次/日服务请求47%全网请求占比99.99%云端实时成功率5款+国产GPU芯片适配200个+底层算子优化50个+模型国产化移植模型试测缺失算子补充低效算子优化深度学习框架适配算法工具包联调优化科大讯飞自2019年10月被美国纳入实体清单以来,与华为等国产优秀AI芯片合作伙伴深度协同攻关加速国产AI芯片软件生态建设,AI国产化取得重要进展,为突破美国大模型算力卡脖子奠定基础语音输入等不定长算子加速面向异构NPU的推理加速基础算子库和工具链异构国产算力调度和框架适配科大讯飞坚定投入和深度参与国产AI芯片软件生态建设G O P S 全 球 运 维 大 会 暨 X O p s 技 术 创 新 峰 会 2 0 2 4 · 北 京 站复杂版面的高精度解析覆盖更多领域的专业符号识别融合篇章语义的文字识别覆盖31个场景、18类关键要素面向教育、医疗等专业领域深度优化基于篇章上下文端到端建模89%84%83%83%FUNSD星火图文识别大模型讯飞基线微软Google典型应用场景图文识别效果英文公开测试集图文识别效果94%95%91%91%92%88%91%93%90%88%91%85%科研金融产品文档星火图文识别大模型讯飞基线GPT-4V国内最优测试结果来源:根据英文公开测试集FUNSD测试结果来源:根据图文识别实际应用场景构建测试集STDOCR-EVAL-V1.0国际领先的星火图文识别大模型G O P S 全 球 运 维 大 会 暨 X O p s 技 术 创 新 峰 会 2 0 2 4 · 北 京 站集群算力资源利用率5分钟完成千卡诊断业务价值算力资源利用率95.7%…教育医疗办公1个通用认知智能大模型汽车赋能“1+N”认知智能大模型业务产出业务情况万卡智算集群运维关键痛点02G O P S 全 球 运 维 大 会 暨 X O p s 技 术 创 新 峰 会 2 0 2 4 · 北 京 站G O P S 全 球 运 维 大 会 暨 X O p s 技 术 创 新 峰 会 2 0 2 4 · 北 京 站10000+张计算加速卡500+台交换机设备30+台存储设备30000+根光纤万卡算力集群,系统复杂、规模大、层次多万卡算力集群组网拓扑万卡算力集群设备概况G O P S 全 球 运 维 大 会 暨 X O p s 技 术 创 新 峰 会 2 0 2 4 · 北 京 站不同于通算,大模型训练任务对于网络要求苛刻34%的训练中断是由网络引起22.1126.5570.59%68.67%57.19%10.00%4.79%0.00%60.00%50.00%40.00%30.00%20.00%316.7670.00%80.00%0.0050.00200.00150.00100.00250.00300.00350.0021.511.00E-050.01%0.10%1%ü RDMA的丢包重传机制将导致带宽利用率快速降低,当丢包率达到千分之1时,训练效率降低明显ü 动态时延提升将导致GPU利用率明显下降,AI训练应用的优化、网络拓扑配置以及拥塞控制机制是关键因素ü 在超大规模集群中,34%的故障是由网络引起,其中光模块问题最为突出丢包率对于训练效率的影响21.4421.7322.9724.5333.8670.79%69.88%66.09%61.90%58.28%26.082574.943%60.00%50.00%44.84%40.00%30.00%20.00%10.00%0.00%70.00%80.00%4035302520151050101005001000150020004000不同动态时延对训练效率的影响训练时间(天)GPU利用率超大规模集群故障原因分布训练时间(天)GPU利用率G O P S 全 球 运 维 大 会 暨 X O p s 技 术 创 新 峰 会 2 0 2 4 · 北 京 站情境场景信息:(1)两侧设备人为动作感知,如接口上下电| 新插入模块(2)接口syslog,如OpticalRemoveActivate等故障模式识别光模块数据特征工程异常特征挖掘针对时间维度的故障时序特征进
鲍中帅:万卡级超大规模智算集群网络运维挑战及实战,点击即可下载。报告格式为PDF,大小10.35M,页数24页,欢迎下载。