sm90改为gfx93

f298a271 · zhanghj2 · a8393a04 · f298a271 · f298a271 · f298a271
Commit f298a271 authored Feb 24, 2026 by zhanghj2
20 changed files
--- a/csrc/api/dense_decode.h
+++ b/csrc/api/dense_decode.h
@@ -6,7 +6,7 @@
 #include "common.h"
 #include "params.h"

-#include "sm90/decode/dense/splitkv_mla.h"
+#include "gfx93/decode/dense/splitkv_mla.h"
 #include "smxx/decode/get_decoding_sched_meta/get_decoding_sched_meta.h"
 #include "smxx/decode/combine/combine.h"

@@ -173,12 +173,12 @@ dense_attn_decode_interface(
    params.stream = at::cuda::getCurrentCUDAStream().stream();

    if (q_dtype == torch::kBFloat16) {
-        sm90::run_flash_splitkv_mla_kernel<cutlass::bfloat16_t>(params);
+        gfx93::run_flash_splitkv_mla_kernel<cutlass::bfloat16_t>(params);
    } else if (q_dtype == torch::kHalf) {
 #ifdef FLASH_MLA_DISABLE_FP16
        TORCH_CHECK(false, "FlashMLA is compiled with -DFLASH_MLA_DISABLE_FP16. Please remove this flag from your environment and re-compile FlashMLA.");
 #else
-        sm90::run_flash_splitkv_mla_kernel<cutlass::half_t>(params);
+        gfx93::run_flash_splitkv_mla_kernel<cutlass::half_t>(params);
 #endif
    } else {
        TORCH_CHECK(false, "Unsupported dtype for dense MLA on SM90");

--- a/csrc/api/dense_decode_kvfp8.h
+++ b/csrc/api/dense_decode_kvfp8.h
@@ -6,7 +6,7 @@
 #include "common.h"
 #include "params.h"

-#include "sm90/decode/dense_kvfp8/splitkv_mla.h"
+#include "gfx93/decode/dense_kvfp8/splitkv_mla.h"
 #include "smxx/decode/get_decoding_sched_meta/get_decoding_sched_meta.h"
 #include "smxx/decode/combine/combine.h"

@@ -188,7 +188,7 @@ dense_attn_decode_kvfp8_interface(
    params.stream = at::cuda::getCurrentCUDAStream().stream();

    if (q_dtype == torch::kBFloat16) {
-        sm90::run_flash_splitkv_mla_kvfp8_kernel<cutlass::bfloat16_t>(params);
+        gfx93::run_flash_splitkv_mla_kvfp8_kernel<cutlass::bfloat16_t>(params);
    } else {
        TORCH_CHECK(false, "Unsupported dtype for dense MLA on SM90");
    }

--- a/csrc/api/dense_decode_qkvfp8.h
+++ b/csrc/api/dense_decode_qkvfp8.h
@@ -6,7 +6,7 @@
 #include "common.h"
 #include "params.h"

-#include "sm90/decode/dense_qkvfp8/splitkv_mla.h"
+#include "gfx93/decode/dense_qkvfp8/splitkv_mla.h"
 #include "smxx/decode/get_decoding_sched_meta/get_decoding_sched_meta.h"
 #include "smxx/decode/combine/combine.h"

@@ -188,7 +188,7 @@ dense_attn_decode_qkvfp8_interface(
    params.stream = at::cuda::getCurrentCUDAStream().stream();

    if (q_dtype == torch::kFloat8_e4m3fn) {
-        sm90::run_flash_splitkv_mla_qkvfp8_kernel<cutlass::float_e4m3_t>(params);
+        gfx93::run_flash_splitkv_mla_qkvfp8_kernel<cutlass::float_e4m3_t>(params);
    } else {
        TORCH_CHECK(false, "Unsupported dtype for dense MLA on SM90");
    }

--- a/csrc/api/sparse_decode.h
+++ b/csrc/api/sparse_decode.h
@@ -4,7 +4,7 @@

 #include "params.h"

-#include "sm90/decode/sparse_fp8/splitkv_mla.h"
+#include "gfx93/decode/sparse_fp8/splitkv_mla.h"
 #include "smxx/decode/get_decoding_sched_meta/get_decoding_sched_meta.h"
 #include "smxx/decode/combine/combine.h"

@@ -76,7 +76,7 @@ protected:
    void run_(const SparseAttnDecodeParams &params, const std::vector<FeatureT> &required_features) override {
        DISPATCH_MODEL_TYPE(params.model_type, MODEL_TYPE, [&]() {
            DISPATCH_NUM_HEADS(params.h_q, NUM_HEADS, [&]() {
-                sm90::decode::sparse_fp8::run_flash_splitkv_mla_fp8_sparse_kernel<MODEL_TYPE, NUM_HEADS>(params);
+                gfx93::decode::sparse_fp8::run_flash_splitkv_mla_fp8_sparse_kernel<MODEL_TYPE, NUM_HEADS>(params);
            });
        });
    }

--- a/csrc/api/sparse_fwd.h
+++ b/csrc/api/sparse_fwd.h
@@ -4,7 +4,7 @@

 #include "params.h"

-#include "sm90/prefill/sparse/phase1.h"
+#include "gfx93/prefill/sparse/phase1.h"


 enum class FwdFeatures : int {
@@ -41,7 +41,7 @@ protected:
    void run_(const SparseAttnFwdParams &params, const std::vector<FeatureT> &required_features) override {
        DISPATCH_HEAD_DIM(params.d_qk, HEAD_DIM_QK, [&]() {
            DISPATCH_BOOLEAN_FLAG(params.topk_length != nullptr, HAVE_TOPK_LENGTH, [&]() {
-                sm90::fwd::run_fwd_phase1_kernel<HEAD_DIM_QK, HAVE_TOPK_LENGTH>(params);
+                gfx93::fwd::run_fwd_phase1_kernel<HEAD_DIM_QK, HAVE_TOPK_LENGTH>(params);
            });
        });
    }

--- a/csrc/sm90/decode/dense/config.h
+++ b/csrc/sm90/decode/dense/config.h
--- a/csrc/sm90/decode/dense/instantiations/bf16.cu
+++ b/csrc/sm90/decode/dense/instantiations/bf16.cu
 #include "../splitkv_mla.cuh"
 #include "../splitkv_mla.h"

-namespace sm90 {
+namespace gfx93 {

 template void run_flash_splitkv_mla_kernel<cutlass::bfloat16_t>(DenseAttnDecodeParams &params);


--- a/csrc/sm90/decode/dense/instantiations/fp16.cu
+++ b/csrc/sm90/decode/dense/instantiations/fp16.cu
 #include "../splitkv_mla.cuh"
 #include "../splitkv_mla.h"

-namespace sm90 {
+namespace gfx93 {

 #ifndef FLASH_MLA_DISABLE_FP16
 template void run_flash_splitkv_mla_kernel<cutlass::half_t>(DenseAttnDecodeParams &params);

--- a/csrc/sm90/decode/dense/splitkv_mla.cuh
+++ b/csrc/sm90/decode/dense/splitkv_mla.cuh
@@ -8,7 +8,7 @@
 #include "softmax.h"
 using namespace cute;

-namespace sm90 {
+namespace gfx93 {

 template<typename T>
 __device__ void

--- a/csrc/sm90/decode/dense/splitkv_mla.h
+++ b/csrc/sm90/decode/dense/splitkv_mla.h
@@ -2,7 +2,7 @@

 #include "params.h"

-namespace sm90 {
+namespace gfx93 {

 template<typename InputT>
 void run_flash_splitkv_mla_kernel(DenseAttnDecodeParams &params);

--- a/csrc/sm90/decode/dense/traits.h
+++ b/csrc/sm90/decode/dense/traits.h
--- a/csrc/sm90/decode/dense_kvfp8/config.h
+++ b/csrc/sm90/decode/dense_kvfp8/config.h
--- a/csrc/sm90/decode/dense_kvfp8/instantiations/kvfp8.cu
+++ b/csrc/sm90/decode/dense_kvfp8/instantiations/kvfp8.cu
 #include "../splitkv_mla.cuh"
 #include "../splitkv_mla.h"

-namespace sm90 {
+namespace gfx93 {

 template void run_flash_splitkv_mla_kvfp8_kernel<cutlass::bfloat16_t>(DenseAttnDecodeParams_fp8 &params);


--- a/csrc/sm90/decode/dense_kvfp8/splitkv_mla.cuh
+++ b/csrc/sm90/decode/dense_kvfp8/splitkv_mla.cuh
@@ -8,7 +8,7 @@
 #include "softmax.h"
 using namespace cute;

-namespace sm90 {
+namespace gfx93 {

 template<typename T>
 __device__ void

--- a/csrc/sm90/decode/dense_kvfp8/splitkv_mla.h
+++ b/csrc/sm90/decode/dense_kvfp8/splitkv_mla.h
@@ -2,7 +2,7 @@

 #include "params.h"

-namespace sm90 {
+namespace gfx93 {

 template<typename InputT>
 void run_flash_splitkv_mla_kvfp8_kernel(DenseAttnDecodeParams_fp8 &params);

--- a/csrc/sm90/decode/dense_kvfp8/traits.h
+++ b/csrc/sm90/decode/dense_kvfp8/traits.h
--- a/csrc/sm90/decode/dense_qkvfp8/config.h
+++ b/csrc/sm90/decode/dense_qkvfp8/config.h
--- a/csrc/sm90/decode/dense_qkvfp8/instantiations/fp8e4m3.cu
+++ b/csrc/sm90/decode/dense_qkvfp8/instantiations/fp8e4m3.cu
 #include "../splitkv_mla.cuh"
 #include "../splitkv_mla.h"

-namespace sm90 {
+namespace gfx93 {

 template void run_flash_splitkv_mla_qkvfp8_kernel<cutlass::float_e4m3_t>(DenseAttnDecodeParams_fp8 &params);


--- a/csrc/sm90/decode/dense_qkvfp8/splitkv_mla.cuh
+++ b/csrc/sm90/decode/dense_qkvfp8/splitkv_mla.cuh
@@ -8,7 +8,7 @@
 #include "softmax.h"
 using namespace cute;

-namespace sm90 {
+namespace gfx93 {

 template<typename T>
 __device__ void

--- a/csrc/sm90/decode/dense_qkvfp8/splitkv_mla.h
+++ b/csrc/sm90/decode/dense_qkvfp8/splitkv_mla.h
@@ -2,7 +2,7 @@

 #include "params.h"

-namespace sm90 {
+namespace gfx93 {

 template<typename InputT>
 void run_flash_splitkv_mla_qkvfp8_kernel(DenseAttnDecodeParams_fp8 &params);