2025年AIDC机房参考设计白皮书
AIDC机房参考设计白皮书前言随着近年来人工智能(AI)产业快速发展,AI业务负载已经逐步成为数据中心的重要组成部分。为了满足爆发式增长的AI业务对算力的需求,智算设备正加速向高密化、液冷化、集群化方向发展。机柜的功率密度和集群的规模快速提升,给机房物理基础设施(包括供配电、制冷设备等)规划设计和快速部署带来颠覆性的挑战。为应对这些挑战,我们需要重新思考数据中心从智算设备到机房物理基础设施的系统规划和设计,从而建设出可以适应未来AI业务演进发展的智算数据中心(AIDC)。本白皮书通过分析未来的AI整机柜、超节点和集群发展趋势,以及对机房物理基础设施的关键挑战,并给出面向未来的AIDC机房规划设计思路和部署模式参考建议,旨在联合产业链,共铸AIDC标准体系,共建AIDC生态。01AI业务负载及算力设备发展趋势1.1 AI业务负载发展趋势 P11.2 AI算力设备发展趋势 P12.1 AIDC机房规划与设计挑战P22.1.1 散热系统设计挑战2.1.2 供配电系统设计挑战2.1.3 建筑结构设计挑战2.1.4 网络布线设计挑战P32.2 AIDC 机房建设周期挑战02 AIDC机房挑战CONTENTS目录3.1 设计思路建议P44.1 共铸AIDC标准体系P94.2 共建AIDC生态P94.3 与国家政策同频共振P103.1.1 散热系统设计思路建议3.1.2 供配电系统设计思路建议3.1.3 建筑结构设计思路建议3.1.4 网络布线设计思路建议3.2 部署模式建议P63.3 存量场景参考建议P703 AIDC机房设计思路及部署模式建议04 标准规范和生态建设倡议高密化:为支撑规模算力供应,AI芯片的算力密度和功率密度快速增长,整机柜设计上为了获得低时延带来的计算效率收益,单机柜内电互连域的芯片数量也在持续增长,整机柜功耗逐步从50kW演进到未来的300kW以上,机柜功耗发展预测如下表:液冷化:随着单芯片和整机柜功耗的快速增长,传统的风冷散热模式已经无法满足AI高密机柜散热需求,液冷因更高的散热能力和系统能效更优成为AI算力基础设施的主流部署模式。集群化:传统服务器堆叠模式因服务器之间缺乏大 带 宽 、 低 时 延 互 联 使 得 大 模 型 依 赖 的 张 量 并 行(TP)、专家并行(EP)、序列并行(SP)、流水线并行(PP)和数据并行(DP)等大规模分布式混合并行算法通信效率低下,无法支撑大模型训练的TTA(Time To Accuracy)要求。AI超节点集群正在成为业界主流选择,基于Scale-Up大带宽、低时延总线互联,互联域从单机8卡扩展到数百、数千卡规模,有效降低了大模型在训练过程中TP、EP等并行切分间的通信开销,大幅提升模型训练、推理性能。当前AI模型正朝着超大规模、多模态融合的方向快速发展,模型规模从GPT-1到GPT-5,模型的参数量从1.17亿提升至数万亿,模型结构也从稠密LLM模型向MoE稀疏化模型以及多模态模型持续演进发展。大模型的发展呈现出两条路线:一是以超大规模参数+新算法挑战模型上限,通过模型参数量、数据量的增长逐步的提升模型效果;二是优化模型架构降低AI使用门槛,让各行各业都有机会参与到AI的浪潮中,实现人工智能普及化。在行业应用方面,智能化转型正在加速,AI技术正在深度赋能各个业务场景。自动驾驶领域利用AI技术处理海量传感器数据实现实时辅助驾驶决策,金融行业利用AI进行高频交易分析和风险预测,医疗健康领域则通过AI辅助诊断和药物研发,智能制造则运用AI优化生产流程。未来随着多模态大模型与具身智能的发展,AI将更深层次地融入生产生活领域。无论是从AI业务负载还是应用发展趋势,都驱动算力需求呈现爆发式增长,这是AI持续演进和发展的基础。为了支撑AI智能化时代的高速增长的规模算力需求,AI算力建设难以通过简单服务器堆叠来解决,高密化、液冷化、集群化成为算力设备的主流发展方向。01AI业务负载及算力设备发展趋势1AI业务负载及算力设备发展趋势1.1 AI业务负载及应用发展趋势1.2 AI算力设备发展趋势注:上表及下文,所指机柜不包含业界宏机柜 年度机柜功耗~50kW80~150kW150~300kW300kW以上2026202720282025机房层高挑战:随着AI机柜功耗密度提升,为了解决机柜散热,需要更大直径的液冷管路,进而需要更高的架空地板,与此同时,未来单柜风冷散热功耗将达到20kW,需要更高的回风天花空间。另一方面,高功率机柜供电电缆需要更大截面的智能母线,超节点互联需要10倍级光纤数量,供电和互联走线要求更大的柜顶空间。综上所述,要支持高密机柜的散热、供电和互联,要求机房具备更高的垂直空间,更高的机房层高。02 AIDC机房挑战2.1 AIDC机房规划与设计挑战2.1.1 散热系统设计挑战机房风液比变化带来的挑战:单柜功率密度从50kW演进到300kW时,机柜的液冷占比也会逐步从当前70%提升到90%+,机房的风液散热能力需具备足够的弹性。机房液冷流量、流阻非线性增长带来的挑战:伴随着单柜功率密度的提升,液冷二次侧流量、流阻的非线性增长,对二次侧换热系统,包括CDU、二次侧液冷主管、支管的规划和设计选型提出更高的要求,二次侧系统需具备相应弹性。机房风冷需求增长对机房风冷能力的挑战:伴随AI服务器机柜功率密度的提升,AI液冷整机柜的风冷散热部分功耗也将从当前10kW走向20kW左右。当前机房风冷末端散热能力难以满足单柜风冷功耗部分的散热需求,需要有更大能力、更加高效可靠的风冷散热解决方案。2.1.2 供配电系统设计挑战大集群规模部署供电的挑战:随着智算集群的发展,单个超节点的供电需求将演进到1~10MW,单集群供电需求将演进到数百MW。当前数据中心单个包间功率1~2MW、单栋楼10~20MW,难以满足智算集群的供电需求演进。末端配电系统高密供电挑战:当前机房给单机柜配电接口以32A/3P和63A/1P为主,随着单机柜功率密度的提升,现有配电接口难以满足未来高密AI整机柜供电需求。如针对300kW功率机柜,2N配电需要18路63A/3P供电接口,对机柜顶部的走线空间带来非常大的挑战,如果要减少供电路数,需要提升单路的供电容量,机柜末端配电系统面临跨代演进压力。2.1.3 建筑结构设计挑战随着AI整机柜、超节点和集群的发展,对机房散热、供电、建筑结构和网络综合布线带来巨大变化,本章节将从这四个方面分析液冷机房在规划和设计方面的挑战: AIDC机房挑战22.1.4 网络布线设计挑战网络布线挑战:相比通算中心,AI数据中心由于超大规模、超大带宽需求,网络走线数量为传统通算机房的十倍级。同时,随着超节点规模的扩大,从当前的百卡级演进到未来的千卡级,超节点域内互联的低时延要求对节点间互联距离存在约束,这将对机房网络布线和平面布局带来新的挑战。机房快速交付的挑战:在AI领域,业务上线速度可能直接决定业务的生死。机房建设如何支撑业务快速上线,成为行业共同关注的话题。据调研,有客户提出液冷机房4个月的就绪周期(业务需求确定→机房物理基础设施侧完成调测,智算设备具备入场条件的时间),甚至少量客户有2个月的就绪周期需求。当前液冷机房建设模式通常为土建框架先行建设,待智算
2025年AIDC机房参考设计白皮书,点击即可下载。报告格式为PDF,大小16.24M,页数14页,欢迎下载。
