计算机行业华为系列深度之十五-AI算力软件生态:难以突破吗?
证 券 研 究 报 告AI算力软件生态:难以突破吗?证券分析师:黄忠煌 A0230519110001 洪依真 A0230519060003杨海晏 A0230518070003李国盛 A0230521080003 研究支持: 崔航A联系人: 曹峥A0230123040004 caozheng@swsresearch.com2024.9.19华为系列深度之十五www.swsresearch.com证券研究报告2投资案件投资案件◼结论和投资分析意见•2024H2,国内AI芯片厂商产品密集迭代,软件生态是核心竞争要素之一,兼容CUDA路线海光信息、以及自成体系路线华为昇腾为国产厂商中进展最快,用户使用体验佳,新产品有望更快放量。◼原因及逻辑•AI开发框架:Pytorch、Tensorflow双寡头,且逐渐与AI芯片解耦。•GPU编程平台:训练端,每家AI芯片均自有GPU编程平台软件,其中英伟达CUDA具备先发优势,形成一定的生态壁垒。其他厂商与英伟达竞争采用2类方式:1)兼容英伟达CUDA,典型代表是AMD、海光信息;2)自成体系:代表厂商华为昇腾、寒武纪。◼有别于大众的认识•市场认为,英伟达CUDA生态壁垒难以突破,一方面是其与AI开发框架厂商的紧密支持,另一方面是CUDA中众多的针对性优化,和庞大的用户群体(迁移其他平台需要学习成本)。•我们认为,1)AI开发框架正在逐渐与英伟达CUDA/硬件解耦,开始原生支持AMD、华为等厂商产品,这一方面的壁垒逐渐瓦解;2)GPU编程平台的学习成本和针对性优化,确实仍需要人才、用户、资金和时间的积累,但并非坚不可摧,且国产厂商如华为昇腾、海光信息均已有较快进展。◼风险提示:AI芯片产品迭代进展不及预期;国产厂商软件工具用户习惯培育周期长;AI应用长时间无爆款,影响AI算力需求。www.swsresearch.com证券研究报告3总结:两条路径,路径,各自突各自突破AI芯片的整体性能=AI芯片硬件性能×(GPU编程平台+深度学习框架支持)AI芯片公司需要投入的优化生态壁垒产生的根源在于软硬件的高度耦合最大的工作量是对海量算子和特定芯片的支持突破CUDA的两类方式AI芯片公司所采取的不同突围路线优劣势兼容CUDA自成体系12AMD&海光信息华为寒武纪&其他谷歌兼容CUDA的路线,借力英伟达生态自行维护Pytorch、Tensorflow后端算子,开发者共建算子生态深度学习框架+AI芯片”自研路线难点在于其更新迭代速度永远跟不上CUDA并且很难做到完全兼容华为:人才供给充足,各类算子开发进展较快,但由于开放较多底层优化,开发难度大,用户不友好谷歌:Tensorflow提供强耦合支持,但芯片设计过于专用,非谷歌人员使用有壁垒芯片本身性能以及算子库丰富程度还有追赶空间解决用户学习成本问题,实现无痛切换1)上层转换器,如ROCm Hipify Tools2)底层二进制机器码实时转译,已被禁止,有法律风险对厂商人才、技术、资金、品牌实力要求较高,需要以非市场化途径切入市场,培育用户习惯和生态主要内容1. 软件工具:AI芯片的“大管家”2. 训练端:后进入者竞争CUDA两类方式3. 推理端:ONNX为“中间人”,软件生态百花齐放4. 相关公司5. 风险提示4www.swsresearch.com证券研究报告数学表达—>计算图1)张量计算引擎+2)自动求导机制=高层算子,例如全连接、卷积、optimizer科学库和实用程序库例如cuDNN最基础库,包含前向、后向卷积、激活函数、归一化、张量变换等Runtime51.1.1 1 软件工具栈:栈:AIAI芯片的大片的大管家管家AI开发框架编译器Driver(Kernel Mode)Toolkit工具(容器Docker)Library库Driver API(User Mode)Developer ToolsHost主机Device 设备开发者工具例如优化器、调解器等运行时(工作台)封装了Driver API,设备管理、流管理、内存管理、时间管理、统一寻址等驱动与Runtime功能类似,但能进行更底层控制内核驱动驱动GPU计算单元执行Kernel核函数功能,完成计算GPU编程平台资料来源:英伟达官网,CSDN(中国开发者网络),申万宏源研究www.swsresearch.com证券研究报告61.1.2 2 开发框架寡头寡头垄断但垄断但逐渐解逐渐解耦,耦,GPUGPU编程平编程平台各居台各居一隅一隅NVidia CUDANvidia 芯片MetaPytorch谷歌TensorflowCaffe百度飞桨华为Mindspore…AMD ROCmAMD MI系列华为昇腾CANN华为昇腾海光信息DTK海光DCU寒武纪BANG寒武纪MLU……OpenCL百分比25%50%75%100%其他PytorchTensorflow20182019202020210%◼AI开发框架:Meta维护的开源项目Pytorch、谷歌Tensorflow双寡头,原生支持Nvidia,AMD、华为、寒武纪等陆续支持(非原生),逐渐解耦。◼GPU编程平台:各家都有自有硬件+自有GPU编程平台产品,且基本上为绑定状态。强支持(后端生态)弱支持(前端生态)紧耦合半耦合资料来源:51CTO(无忧创想数字化人才学习平台),申万宏源研究Paper with code网站论文使用Pytorch比例快速提升Vulkanwww.swsresearch.com证券研究报告1.1.3 3 出现这么多出现这么多GPUGPU编程平编程平台的原台的原因?指因?指令集、令集、硬件架硬件架构不构不同深度学习框架厂商仅支持一家AI芯片就要投入巨大工程量,因此导致其最终只选择市占率最大的1-2家进行深度支持CUDA获得Pytorch、Tensorflow原生支持指令集不同汇编语言不同智能编程语言不同工具不兼容每家一个GPU编程平台CUDA生态自我强化英伟达AMD谷歌TPU华为昇腾寒武纪海光信息GPU编程平台CUDAROCmXLACANNBANGDTKC语言编译器NVCCHCC传统编译器毕昇编译器CNCCLLVM汇编语言SASS??Ascend CLMLISA?指令集PTX(闭源)?(技术文档已公开)CISC?MLU?英伟达H100硬件计算单元(左)和华为昇腾910硬件计算单元(右)架构差异较大资料来源:英伟达官网,《Huawei Research》(华为研究), CSDN(中国开发者网络),申万宏源研究7www.swsresearch.com证券研究报告81.1.4 4 非NV AI芯片厂商的竞争的竞争策略:策略:开源开开源开放 oror 自成体系自成体系◼其他AI芯片硬件与英伟达竞争,有两种方式•开放开源:尽可能方便开发者,兼容CUDA,同时其他(如指令集等)尽可能开放•自成一派:从AI开发框架-GPU编程平台-底层硬件完全走自己的路线兼容CUDA自成体系Nvidia华为AMD寒武纪海光信息百度昆仑芯阿里平头哥摩尔线程、沐曦等谷歌TPUIntel燧原科技工具链完善程度资料来源:申万宏源研究www.swsresearch.com证券研究报告91.
[申万宏源]:计算机行业华为系列深度之十五-AI算力软件生态:难以突破吗?,点击即可下载。报告格式为PDF,大小2.29M,页数31页,欢迎下载。
