面向国产智能算力软件生态
><1面向国产智能算力软件生态翟季冬清华大学2新一代人工智能拉开新一轮科技竞赛衡量指标美国中国累计企业数量4100+1200+累计融资规模1600+亿470+亿计算力指数7770AI顶尖人才(AI 2000榜单学者数量)1146人次232人次AI顶尖机构(AI 2000榜单全球前20强)15家2家AI人才规模16万+18万+AI专利数量(近10年累计)116万+191万+数据量规模(2025年预计)30.6ZB48.6ZB中美人工智能产业发展情况对比62678624 11879 16377 22598 312094314059686826511145542021202220232024E2025E2026E2027E2028E2029E2030E人工智能全球市场规模及预测(单位:亿元人民币)+38.2%数据来源:Precedence Research、艾瑞咨询13891621170621372800376249326251811020202021202220232024E2025E2026E2027E2028E2020-2028年中国人工智能产业规模(单位:亿元人民币)+30.6%3科技企业全面开启 AI 转型排名企业名称国家人工智能业务营收(亿美元)营收占比1Alphabet(谷歌母公司)美国115.86.2%2Amazon美国55.33.0%3Microsoft美国40.82.2%4Apple美国34.11.8%5Meta(脸书母公司)美国31.91.7%6IBM美国26.01.4%7阿里巴巴中国17.50.9%8Salesforce美国14.80.8%9百度中国13.20.7%10华为中国7.50.4%全球科技企业AI业务收入情况•微软Office产品全面接入ChatGPT;Google用大模型技术推动搜索引擎升级;苹果推出VR终端Apple Vision Pro•百度、阿里、华为等企业都制定相应的战略,全面布局AI产业数据来源:赛迪顾问,2023年4DeepSeek 开源推动 AI 应用发展人工智能技术和产业同步步入爆发期众多行业将被改变、重塑、颠覆AI 2.0 带来的平台型机会将比移动互联网大十倍,这也是中国第一次迎来平台竞逐的机会。新平台上所有用户入口和界面都将被重写,能够建立下一代平台的公司将会取得巨大的优势和话语权。人工智能被广泛应用到很多重要领域><5具身智能公共安全自动驾驶科学计算人工智能模型当前在诸多领域有着广泛应用><6大模型对算力产生爆发式需求模型预训练训练GPT4:一万块A100 x 11月数据经过模型需要海量算力模型后训练涉及多个模型交互算力需求庞大采用强化学习需要配套算力模型微调垂域模型: 基座模型精调需要算力精调垂域模型需要可控算力模型推理实时的用户请求对算力需求强劲实时处理用户请求需要稳定可靠算力算力存在于大模型生命周期的每一环算力是大模型产业的主要开销,百亿级的算力成本投入一万块 A100亿美元+GPT4 训练开销ChatGPT 推理开销万美元/每天800 块 A100万美元/每月模型研发成本以上算力成本占大模型企业开销70%算力10%人力3%人力95%算力2%数据><720%数据人工智能领域算力成本居高不下外部限制增强,算力国产化势在必行外部限制强化,中国AI内循环加速到来时间2024半导体设备算力上限算力密度上限AI模型HBM管制范围2018AI 要素全面进入本地化时代数据属地化算法主权化算力国产化20252030国产算力非国产算力国产AI算力总量和占比快速提升>90%>50%国家力量推动智算中心建设,引导国产算力发展•上海:到2025年新建智算中心国产算力使用占比超50%•北京:智算基础设施2027年实现100%国产算力覆盖•江苏:要求新建算力中心国产算力使用占比达70%以上•其他:在建的杭州人工智能计算中心、贵安人工智能计算中心等均采用100%国产算力部署数据来源:国家智能算力规划,公开资料整理>8 <国产算力持续增长在智能产业飞速发展大背景下,各个省市大力建设智算、超算中心,但利用率普遍偏低中国超算、智算中心以国产算力为主><9摩尔线程“夸娥” 智算集群“神威-太湖之光”超算沐曦智算中心天数智芯算力集群国防科大天津超算曙光成都超算华为鹏城云脑寒武纪珠海横琴算力集群国产智能算力软件生态国产智能算力面临软件生态的挑战><10• 编程语言、编译器、算子库等深度学习需要多层软件栈国产智能算力软件生态有待提高国产智能算力软件能以与上下游软件更新保持及时同步国产算力易得、软件生态欠缺Hugging FacePyTorchCUBLAS / CUDNNNVCC / CUDANVIDIA GPUHugging Face?? PyTorch?? 算子库?? 编译器 /运行时组件国产芯片><11要改变国产大模型的生态系统不好的局面— 需要做好10个软件智能算力10个核心关键基础软件><12AI编译器智能算力 10个 关键基础软件通信库NCCL并行系统编程语言调度器Megatron-LM算子库内存管理容错系统存储系统cuBLAScuDNN编程框架底层系统可扩展并行 + 智能编译器解决思路智能编译器智能算力基于用户熟悉的编程框架提供高效的训练&推理服务让用户专注于模型开发无需感知底层硬件支持典型的国产AI芯片支持英伟达国外AI芯片提供共性优化+特性优化><13深度学习框架++可扩展并行&统一中间表示编译器大规模并行训练高性能推理系统><14团队自研系统AI 编译器编程语言并行加速SmartMoEMegatron-LM算子库cuBLAScuDNN内存管理存储系统底层系统通信库NCCLEinNetPETSelf Checkpoint清华大学相关研究成果Spread-n-Share编程框架八卦炉 - 智能算力核心基础软件国产神威超算平台实现>15<><16神威新一代超算系统大模型训练对系统的硬件峰值性能提出要求神威超算:10万节点,FP64性能 1.4 EFLOPS,FP16性能 5.6 EFLOPS,相当于 1.8万块 英伟达 A100例如:GPT-4 在 2.5万 张英伟达 A100 上训练100天国产算力基础设施“八卦炉”:智能算力核心基础软件在神威平台实现><17在神威新一代超级计算机上研制了大模型训练加速系统:八卦炉扩展到全机规模 (10万台服务器)目前正适配八卦炉系统支持更多国产芯片八卦炉支撑多个大模型的训练任务:北京智源研究院悟道 2.0、阿里巴巴M6 大模型等支撑多个AI for Science 应用程序:跨尺度大气预测模型:swMPAS-A第一性原理大模型:乾坤Net国产算力基础软件层“八卦炉”基础软件系统并行层计算层编程语言底层系统并行加速通信库容错系统内存系统存储系统调度系统编译器加速库实现百万亿参数量预训练模型加速模型规模:174 万亿参数量 (世界最大)训练性能:1.18 EFLOPS (世界最快)运行规模:3700 万处理器核八卦炉 + 国产超算神威E级超级计算机 (算力等效1.8万块 A100)八卦炉:支撑国产AI算力的基础软件集PowerFusion:面向国产AI芯片智能编译器FastMoE:MOE大模型并行加速系统Einet:图算融合智能
面向国产智能算力软件生态,点击即可下载。报告格式为PDF,大小38.32M,页数33页,欢迎下载。
