国产GPU降低 90%开发成本！摩尔线程开源TileLang-MUSA

发布时间：2026-02-11 阅读量：693 来源: 发布人: suii

2月10日，摩尔线程宣布开源TileLang-MUSA项目，实现了对TileLang编程语言的完整支持。该项目已在其多代全功能GPU上完成了功能验证与特性开发，旨在充分释放国产全功能GPU的性能潜力，并大幅降低相关开发门槛。

此前，DeepSeek-V3 大模型的研发已采用 TileLang 进行算子快速原型设计与性能验证。TileLang 是一款基于张量分块抽象的高性能 AI 算子编程语言，采用声明式语法与类 Python 前端，使开发者能以接近数学公式的形式描述计算意图，并由编译器自动完成循环优化、内存调度与代码生成，在保持底层性能的同时，大幅降低 GPU 及异构计算平台的编程复杂度。

在实际应用中，TileLang 通过高级抽象降低开发门槛，具备跨平台能力，实现“一次编写、多架构运行”，编译器自动执行 Layout 推导、线程映射、Warp 特化、流水线排布、内存优化等复杂优化，在保障性能的同时提升 GPU 计算的开发效率，已广泛应用于 AI 与机器学习、科学计算等领域。

TileLang-MUSA 项目提供了一种介于底层汇编与高层 DSL 之间的“中间层”抽象，在保留硬件控制力的同时，显著降低编程复杂度。该项目硬件兼容性良好，已在摩尔线程多代全功能 GPU 上完成功能验证与打通，包括训推一体全功能智算卡 MTT S5000 和 MTT S4000。团队还实现了 TileLang 高层语义到摩尔线程 GPU 底层 MUSA 架构的精准映射。

在实际算子开发实践中，TileLang-MUSA 实现了让开发者“写得快”且“跑得快”。以大语言模型中重要的 FlashAttention-3 和 GEMM（通用矩阵乘）算子为例，在摩尔线程 MTT S5000 上的测试结果显示：相较手写 MUSA C++代码，使用 TileLang-MUSA 的代码量减少了约 90%，且代码逻辑更加清晰，极大降低了开发与维护成本；得益于编译器优化，生成的算子性能在典型配置下，Gemm 最高可达手写优化版本的 95%，FlashAttention-3 可达手写优化版本的 85%；借助 TileLang-MUSA 的 Auto-tuning 机制，开发者可在 MUSA 架构的全功能 GPU 上快速搜索最优的分块策略（Tile Size）和流水线级数，轻松超越未经深度优化的基准实现。

TileLang-MUSA 的推出，使 TileLang 用户能近乎零成本地将算子逻辑迁移至摩尔线程 GPU，还为不熟悉 MUSA 指令集的 AI 工程师提供了高层次的开发入口，并通过支持 FlashAttention 等关键算子的高效开发，加速大语言模型等前沿 AI 应用在国产算力平台上的部署与落地。

摩尔线程计划持续深化平台与生态建设，致力于打造覆盖从单算子到完整大模型的国产算力统一加速平台。未来，该公司将深度集成SGLang等主流AI框架，实现对Transformer、MoE等复杂模型架构的跨算子调度与全局优化，并完善调试及性能分析工具链。

同时，通过持续优化性能并开发更多MUSA架构定制扩展，摩尔线程力争使生成代码性能稳定达到手写优化版本的90%以上，从而为构建开放、易用的国产算力开发生态提供有力工具支撑。