计算机行业人工智能系列报告(九)/算力系列报告(二):TileLang,中国的CUDA和Triton
1 | 请务必仔细阅读报告尾部的投资评级说明和声明 行业动态跟踪 | 计算机 TileLang:中国的 CUDA 和 Triton 人工智能系列报告(九)/算力系列报告(二) 核心结论 行业评级 超配 前次评级 超配 评级变动 维持 近一年行业走势 相对表现 1 个月 3 个月 12 个月 计算机 -2.13 10.77 32.95 沪深 300 0.13 12.94 17.71 分析师 郑宏达 S0800524020001 zhenghongda@research.xbmail.com.cn 李想 S0800525040006 lixiang@research.xbmail.com.cn 相关研究 计算机:OpenAI 动作不断 AI 迎密集催化,美国或将对所有关键软件实施出口管制—计算机行业周观点第 41 期 2025-10-12 计算机:腾讯混元开源原生多模态生图模型,3D 生 成 亦 再 突 破 — 计 算 机 行 业 点 评 2025-09-29 计算机:港股科技公司的价值重估—TMT 科技行业每周评议 2025-09-27 CUDA 是英伟达于 2007 年发布的高性能计算平台,经过近二十年的发展,CUDA 在成熟度和面向 AI 场景的支持能力方面,相比其他 AI 芯片厂商存在一定的优势。英伟达先后在CUDA 平台引入了NVLink、混合精度训练(FP16)等能力,并在 CUDA 层面实现了对 Tensor Core 的支持,使矩阵计算的速度得到数量级提升。因此,CUDA 也成为了英伟达在高性能计算和 AI 计算领域的主要壁垒。 虽然 CUDA 已具备较高的成熟度以及较为完善的算子支持,但在工程中仍需要开发者进行工作量较大的手动优化。同时,在进行跨平台代码迁移时,基于 CUDA 接口的代码也需要开发者重新进行编写。因此,Philippe Tillet 由于 2019 年提出 Triton 项目,Triton 能够自动化处理线程、内存的操作等底层细节,进一步降低了 GPU 内核程序的开发门槛,加快了开发者在 AI 场景下的开发效率。随着 Philippe Tillet 在 2020 年加入 OpenAI,Triton 在 OpenAI内部得到了推广和使用,OpenAI 于 2021 年正式将 Triton 开源。 目前,国产 AI 芯片厂商的高性能计算平台在框架兼容性和工具链完善度上,与英伟达 CUDA 平台仍有一定的差距。此外,国产 AI 芯片厂商的硬件架构无法做到互相兼容,各厂商的高性能计算平台也无法实现通用,这导致开发者需要针对不同的国产 AI 芯片平台进行优化和适配,增加了开发成本,不利于国产 AI 芯片的大规模推广和使用。 TileLang 由北京大学计算机学院团队开发,并于 2025 年 1 月正式开源。TileLang 与 Triton 类似,都是专为 AI 算子开发设计的程序语言。TileLang将高性能计算中的“分块技术”(Tile)作为提升 AI 算子性能的关键,通过分块实现了内存优化和自动调度。TileLang 将原本需要手动优化的操作,与内核的数据流(Dataflow)解耦,将大多数优化工作交给 TileLang 编译器完成,编译器能够自动推导出适合目标硬件的优化策略。 我们认为:TileLang 或将解决头部 AI 芯片公司与国产 AI 芯片的高性能计算平台之间接口互不兼容的问题,同时,对国产 AI 芯片的高性能计算平台进行有效的优化。TileLang 有望降低互联网大厂在生成式 AI 模型推理和训练代码迁移时的成本,加速国产 AI 芯片的技术落地和商业化。 建议关注: 1)AI 推理芯片:寒武纪、海光信息。 2)算力服务器:浪潮信息、中科曙光、华勤技术、神州数码。 风险提示:人工智能技术落地和商业化不及预期;产业政策转变;宏观经济不及预期。 -7%0%7%14%21%28%35%42%2024-102025-022025-06计算机沪深300证券研究报告 2025 年 10 月 15 日 行业动态跟踪 | 计算机 西部证券 2025 年 10 月 15 日 2 | 请务必仔细阅读报告尾部的投资评级说明和声明 索引 内容目录 一、 高性能计算是生成式 AI 的技术基础 ............................................................................ 3 1.1 CUDA 参与构建了英伟达的护城河 ........................................................................... 3 1.2 Triton 进一步降低了 GPU 编程的门槛 ...................................................................... 4 二、 TileLang 有望成为国产 AI 芯片的 CUDA 和 Triton ...................................................... 5 2.1 软件是国产 AI 芯片的主要短板................................................................................ 5 2.2 TileLang 或将推动国产 AI 芯片建立成熟的软件体系 ................................................. 6 三、 建议关注 ................................................................................................................... 7 四、 风险提示 ................................................................................................................... 7 图表目录 图 1:GPU 较 CPU 等传统计算设备拥有更好的并行计算性能 ............................................. 3 图 2:CUDA 不仅是编程接口,还包含了底层的算子和开发工具 ......................................... 3 图 3:Triton 可直接生成 PTX 代码,跳过 cuBLAS 等闭源 CUDA 库 .................................... 4 图 4:Triton 代码会转变为 LLVM-IR 进行优化,最终编译成机器语言 .................................. 5 图 5:部分国产 AI 芯片正通过更新架构补足软件短板 ......
[西部证券]:计算机行业人工智能系列报告(九)/算力系列报告(二):TileLang,中国的CUDA和Triton,点击即可下载。报告格式为PDF,大小1.54M,页数9页,欢迎下载。
