国产GPU降低 90%开发成本!摩尔线程开源TileLang-MUSA

发布时间:2026-02-11 阅读量:693 来源: 发布人: suii

2月10日,摩尔线程宣布开源TileLang-MUSA项目,实现了对TileLang编程语言的完整支持。该项目已在其多代全功能GPU上完成了功能验证与特性开发,旨在充分释放国产全功能GPU的性能潜力,并大幅降低相关开发门槛。


此前,DeepSeek-V3 大模型的研发已采用 TileLang 进行算子快速原型设计与性能验证。TileLang 是一款基于张量分块抽象的高性能 AI 算子编程语言,采用声明式语法与类 Python 前端,使开发者能以接近数学公式的形式描述计算意图,并由编译器自动完成循环优化、内存调度与代码生成,在保持底层性能的同时,大幅降低 GPU 及异构计算平台的编程复杂度。


在实际应用中,TileLang 通过高级抽象降低开发门槛,具备跨平台能力,实现“一次编写、多架构运行”,编译器自动执行 Layout 推导、线程映射、Warp 特化、流水线排布、内存优化等复杂优化,在保障性能的同时提升 GPU 计算的开发效率,已广泛应用于 AI 与机器学习、科学计算等领域。


TileLang-MUSA 项目提供了一种介于底层汇编与高层 DSL 之间的“中间层”抽象,在保留硬件控制力的同时,显著降低编程复杂度。该项目硬件兼容性良好,已在摩尔线程多代全功能 GPU 上完成功能验证与打通,包括训推一体全功能智算卡 MTT S5000 和 MTT S4000。团队还实现了 TileLang 高层语义到摩尔线程 GPU 底层 MUSA 架构的精准映射。


在实际算子开发实践中,TileLang-MUSA 实现了让开发者“写得快”且“跑得快”。以大语言模型中重要的 FlashAttention-3 和 GEMM(通用矩阵乘)算子为例,在摩尔线程 MTT S5000 上的测试结果显示:相较手写 MUSA C++代码,使用 TileLang-MUSA 的代码量减少了约 90%,且代码逻辑更加清晰,极大降低了开发与维护成本;得益于编译器优化,生成的算子性能在典型配置下,Gemm 最高可达手写优化版本的 95%,FlashAttention-3 可达手写优化版本的 85%;借助 TileLang-MUSA 的 Auto-tuning 机制,开发者可在 MUSA 架构的全功能 GPU 上快速搜索最优的分块策略(Tile Size)和流水线级数,轻松超越未经深度优化的基准实现。


TileLang-MUSA 的推出,使 TileLang 用户能近乎零成本地将算子逻辑迁移至摩尔线程 GPU,还为不熟悉 MUSA 指令集的 AI 工程师提供了高层次的开发入口,并通过支持 FlashAttention 等关键算子的高效开发,加速大语言模型等前沿 AI 应用在国产算力平台上的部署与落地。


摩尔线程计划持续深化平台与生态建设,致力于打造覆盖从单算子到完整大模型的国产算力统一加速平台。未来,该公司将深度集成SGLang等主流AI框架,实现对Transformer、MoE等复杂模型架构的跨算子调度与全局优化,并完善调试及性能分析工具链。


同时,通过持续优化性能并开发更多MUSA架构定制扩展,摩尔线程力争使生成代码性能稳定达到手写优化版本的90%以上,从而为构建开放、易用的国产算力开发生态提供有力工具支撑。

220x90
相关资讯
兆易创新发布新一代大容量SPI NAND Flash,助力智能设备存储升级!

4月2日,兆易创新宣布正式发布新一代SPI NAND Flash产品GD5F4GM7/GD5F8GM8。

标普全球警告:中东冲突或影响科技巨头6350亿美元的AI投资

标普全球Visible Alpha研究主管Melissa Otto指出,当前推动股市创纪录上涨的人工智能巨额投资正面临显著挑战,主要由于中东危机对全球经济增长前景与能源成本带来不确定性影响。

全新存储芯片面世,可在 700°C 高温下稳定运行!

南加州大学团队研发新型存储芯片,可在 700°C 高温下稳定运行,且未出现性能退化迹象。

突发!传高通、联发科合计减产约1500~2000万颗4nm移动处理器

联发科和高通已开始下修于晶圆代工厂的4nm投片量,显示手机链景气明显降温

全新EM8695 5G RedCap模块上架,适用于无线工业传感器、中程物联网、资产追踪等场景

EM8695 RedCap模块基于Qualcomm SDX35基频处理器,为无需传统5G全速率或复杂功能的应用提供精简型5G解决方案