国产GPU降低 90%开发成本!摩尔线程开源TileLang-MUSA

发布时间:2026-02-11 阅读量:779 来源: 发布人: suii

2月10日,摩尔线程宣布开源TileLang-MUSA项目,实现了对TileLang编程语言的完整支持。该项目已在其多代全功能GPU上完成了功能验证与特性开发,旨在充分释放国产全功能GPU的性能潜力,并大幅降低相关开发门槛。


此前,DeepSeek-V3 大模型的研发已采用 TileLang 进行算子快速原型设计与性能验证。TileLang 是一款基于张量分块抽象的高性能 AI 算子编程语言,采用声明式语法与类 Python 前端,使开发者能以接近数学公式的形式描述计算意图,并由编译器自动完成循环优化、内存调度与代码生成,在保持底层性能的同时,大幅降低 GPU 及异构计算平台的编程复杂度。


在实际应用中,TileLang 通过高级抽象降低开发门槛,具备跨平台能力,实现“一次编写、多架构运行”,编译器自动执行 Layout 推导、线程映射、Warp 特化、流水线排布、内存优化等复杂优化,在保障性能的同时提升 GPU 计算的开发效率,已广泛应用于 AI 与机器学习、科学计算等领域。


TileLang-MUSA 项目提供了一种介于底层汇编与高层 DSL 之间的“中间层”抽象,在保留硬件控制力的同时,显著降低编程复杂度。该项目硬件兼容性良好,已在摩尔线程多代全功能 GPU 上完成功能验证与打通,包括训推一体全功能智算卡 MTT S5000 和 MTT S4000。团队还实现了 TileLang 高层语义到摩尔线程 GPU 底层 MUSA 架构的精准映射。


在实际算子开发实践中,TileLang-MUSA 实现了让开发者“写得快”且“跑得快”。以大语言模型中重要的 FlashAttention-3 和 GEMM(通用矩阵乘)算子为例,在摩尔线程 MTT S5000 上的测试结果显示:相较手写 MUSA C++代码,使用 TileLang-MUSA 的代码量减少了约 90%,且代码逻辑更加清晰,极大降低了开发与维护成本;得益于编译器优化,生成的算子性能在典型配置下,Gemm 最高可达手写优化版本的 95%,FlashAttention-3 可达手写优化版本的 85%;借助 TileLang-MUSA 的 Auto-tuning 机制,开发者可在 MUSA 架构的全功能 GPU 上快速搜索最优的分块策略(Tile Size)和流水线级数,轻松超越未经深度优化的基准实现。


TileLang-MUSA 的推出,使 TileLang 用户能近乎零成本地将算子逻辑迁移至摩尔线程 GPU,还为不熟悉 MUSA 指令集的 AI 工程师提供了高层次的开发入口,并通过支持 FlashAttention 等关键算子的高效开发,加速大语言模型等前沿 AI 应用在国产算力平台上的部署与落地。


摩尔线程计划持续深化平台与生态建设,致力于打造覆盖从单算子到完整大模型的国产算力统一加速平台。未来,该公司将深度集成SGLang等主流AI框架,实现对Transformer、MoE等复杂模型架构的跨算子调度与全局优化,并完善调试及性能分析工具链。


同时,通过持续优化性能并开发更多MUSA架构定制扩展,摩尔线程力争使生成代码性能稳定达到手写优化版本的90%以上,从而为构建开放、易用的国产算力开发生态提供有力工具支撑。

相关资讯
韩国YAS斩获TCL华星8.6代OLED订单!

韩国OLED沉积设备大厂YAS近期斩获TCL华星订单,将为后者8.6代OLED产线供应蒸发源。

英特尔发布新一代EMIB-T封装技术!

英特尔旗下晶圆代工业务 Intel Foundry 近日发布了新一代 EMIB(Embedded Multi-Die Interconnect Bridge,嵌入式多芯片互连桥接)先进封装技术——EMIB-T。

英伟达新总部曝光!2030年在中国台湾启用,可容纳4000名员工

黄仁勋透露,中国台湾新总部将延续加州总部设计风格,预计2030年入驻。该基地规划面积约70万平方英尺,可容纳约4000名员工。

三星电子工会批准薪酬协议,存储芯片部门最高可获6.5亿韩元奖金!

三星电子工会成员投票批准了上周敲定的奖金方案,终结了存储芯片业务部门此前的罢工危机。

韩国工厂PKC应三星要求将半导体用氯气产能扩产50%!

据THE ELEC报道,韩国化工企业PKC宣布将在全罗北道群山工厂把半导体用高纯度氯气(Cl₂)产能提升50%,年产能由1400–1500吨扩至2100–2200吨