直面算力瓶颈:需求爆发下的多维挑战与破局之路
算力行业分析 1 直面算力瓶颈:需求爆发下的多维挑战与破局之路 文/王雅倩 摘要 算力是数字经济的核心基础设施,在人工智能迅速发展、产业数字化转型和智能终端海量增长等多重因素的共同驱动下,算力需求正经历爆发式增长。然而在算力规模快速增长的过程中,面临着物理极限、能源消耗、供应链安全和经济效益等多维度的严峻挑战。本文将分析算力需求增长的驱动力和面临的瓶颈,并探讨可行的解决方案与未来发展方向。 正文 (一)算力需求的爆发式增长 在多元因素的驱动下,算力需求正呈现爆发式增长,并逐渐成为全社会智能化发展的通用生产要素。 算力即数据处理能力,是集信息计算力、网络运载力、数据存储力于一体的新质生产力。目前,全球算力需求正持续高速增长,算力的增长并非由单一因素驱动,而是由多种因素共同作用下的必然发展趋势。随着科技的进步,算力正逐渐从服务于互联网计算机行业的专用资源,逐渐成为全社会智能化发展的通用生产要素。 1、人工智能的迅速发展 算力需求增长最直接的驱动力是人工智能(AI)的迅速发展。随着推理计算应用的广泛使用,如聊天机器人、文生图等,推理计算消耗的算力逐渐超过了大模型训练,而单次推理计算所需的算力需求远超过单次大模型训练。此外,AI 从纯文本处理逐步拓展到了同时分析和处理文本、图像、音频或视频的多模态模型,处理这些更复杂、更高维度的数据,需要的计算资源远超纯文本模型。 2、产业数字化转型的全面深化 产业数字化正从局部应用逐步拓展到全业务流程。智能制造方面,算力驱动生产系统的实时感知、决策与优化,比如 AI 质检,通过对图像数据进行分析,可实现精准检测并提升检测效率。智慧城市管理方面,同时处理数百万个物联网设备的数据也需要大量的算力资源。此外还有智慧金融的实时反欺诈与信贷风控,智慧医疗的辅助诊断与新药研发等,算力已成为驱动产业迈向数字化、智能化的核心引擎。 3、智能终端的海量增长与边缘计算兴起 现代生活中的智能设备正在以海量、微小和分散的方式产生数据和计算需求,如智能手机、智能汽车和智能家居等,这些物联网设备每时每刻都在产生数据,且这些数据算力行业分析 行业研究 算力行业分析 2 都需要被及时地处理和分析。为了低延迟和隐私保护,这些数据的计算不能全部集中在云端,因此需要将算力下沉到数据产生的地方(如基站、车载电脑、工厂服务器等),即需要建设无数个“微型算力中心”,这将极大地增加对算力总量的需求。 4、科学研究的新模式 AI 已成为一种新的科研工具,科学家们可以通过用计算机模拟替代昂贵实验,依靠大规模计算获得模拟实验数据,再从海量数据中发现新规律,不仅可以降低研究成本,还可以缩短研究时间,提高研究效率,这进一步加大了对高性能计算和智能计算的需求。 5、技术使用门槛的降低与商业模式的演进 云计算的普及降低了算力的使用门槛,个人和中小企业使用者可以按需取用、按量付费,这种灵活的商业模式激发了算力的需求。同时,AI 模型和框架的开源也降低了 AI应用的门槛,使用者能够开发部署满足自己需求的 AI 应用,从而拉动了底层算力的消费。 (二)算力瓶颈的多维挑战 算力行业在经历爆发式增长的同时,正面临着来自技术物理极限、能源消耗、生态供应链和经济效益等多维度的严峻挑战。 在人工智能迅速发展、产业数字化转型和智能终端海量增长等多重因素的共同驱动下,全球算力需求快速增长。但同时,算力的增长却面临多重严峻挑战,从技术层面的物理定律限制,到能源层面的巨大消耗与散热难题,再到供应链、经济成本和系统效率的现实制约,都是算力规模增长过程中难以避免的问题。 1、技术物理极限 算力规模增长最大的挑战是物理规律的限制,过去几十年,算力增长主要遵循摩尔定律1,但现在晶体管尺寸已逼近物理极限,技术和工艺突破的难度和成本呈指数级上升。此外,处理器在运算时需要不断从内存中读取数据,而处理器的性能提高速度远远超过了内存访问速度的增长,内存的访问速度跟不上处理器的运算速度,导致计算核心经常因等待数据读取而处于空闲状态,极大地浪费了算力。 2、能源消耗 算力的本质是能源消耗,训练一次 AI 语言模型 GPT-3 大约消耗 1,287 兆瓦时(MWh)的电力2。在“碳中和”的背景下,算力产业的能耗与减排目标形成了直接冲突。如何为未来的算力中心提供充足且绿色的电力,是一个重要的挑战。此外,能耗最终会转化为热量,巨大的散热需求不仅限制了芯片性能的进一步提升,也使得算力中心的运营成本大幅增加。 1 摩尔定律是英特尔创始人之一戈登·摩尔的经验总结,核心内容为:集成电路上可以容纳的晶体管数目在大约每经过 18 个月到 24 个月便会增加一倍。 2 数据来源为斯坦福人工智能研究所发布的《2023 年 AI 指数报告》。 算力行业分析 3 3、供应链与生态 算力的硬件基础是建立在一个非常复杂且脆弱的全球供应链之上。高端芯片制造垄断严重,最先进的芯片制造工艺(比如小于 7 nm),量产能力集中在极少数的企业手里,一旦出现地缘政治或者贸易摩擦的波动就会产生供应链风险,造成全球范围的算力危机。软件生态方面,英伟达推出的运算平台 CUDA 生态经过十余年发展,已构建了极高的软件护城河,尽管鲲鹏处理器等在硬件性能等方面也很优秀,但是缺少和 CUDA 相当的软件工具链或强大的开发者生态,迁移到 CUDA 平台的门槛太高,形成了“软件生态锁死”的难题。 4、经济成本 获取算力所需的经济门槛越来越高。大规模算力中心的建设成本高达数十亿甚至上百亿,除了包括最重要的 AI 芯片,还有土地、建筑、电力设施和冷却系统等。经营维护方面的成本同样高昂,除了电费,还需要专业运维以及更换硬件的费用等,对于投入大量资金建设私有算力的企业而言,对应的商业价值回报存在不确定性,算力可能成为一种沉重的资本负担。 5、系统与效率 行业不再拼单个芯片的峰值算力,而是致力于提升整体计算系统的真实算力。由于网络速度限制和软件调度复杂性,导致大规模集群真实算力远低于理论值,在这一情况下,如何通过优化系统架构、调度算法及网络,把“纸面算力”变成“有效算力”,是工程上一大难关。业界普遍采用的方法是“异构计算”,即把不同类型的计算单元混合使用,但这会导致编程模型复杂、资源调度难度加大、软件开销增大和软硬件维护成本增加等。 (三)破局之路:应对挑战的多元策略 突破算力瓶颈,需从技术、架构、能源和商业模式等多个层面寻求破局之路。 面对算力需求激增与多维瓶颈,算力产业正从技术、架构、能源和商业模式等多个层面积极探索破局之路,而这些解决方案并非孤立,而是一套系统性的“组合拳”,只有进行全方位变革才能够有望推动算力产业走向更高效、更普惠和更可持续的未来。 1、架构创新
直面算力瓶颈:需求爆发下的多维挑战与破局之路,点击即可下载。报告格式为PDF,大小0.6M,页数5页,欢迎下载。



