Add more GPU architctures support (#76)

* Add more GPU architctures support * Merge fmha and mla runner * add varlen & non varlen support, and add incontiguous tensor support * update readme * add varlen api --------- Co-authored-by: dianzhangc <dianzhangc@nvidia.com>

Add more GPU architctures support (#76)
* Add more GPU architctures support * Merge fmha and mla runner * add varlen & non varlen support, and add incontiguous tensor support * update readme * add varlen api --------- Co-authored-by: dianzhangc <dianzhangc@nvidia.com>
41b611f7 · Zeyu WANG · GitHub · 9edee0c0 · 41b611f7 · 41b611f7
Unverified Commit 41b611f7 authored Aug 01, 2025 by Zeyu WANG Committed by GitHub Aug 01, 2025
20 changed files
--- a/csrc/sm100/kernel/fmha_causal_tile_scheduler.hpp
+++ b/csrc/sm100/kernel/fmha_causal_tile_scheduler.hpp
--- a/csrc/sm100/kernel/fmha_kernel_bwd_convert.hpp
+++ b/csrc/sm100/kernel/fmha_kernel_bwd_convert.hpp
--- a/csrc/sm100/kernel/fmha_kernel_bwd_sum_OdO.hpp
+++ b/csrc/sm100/kernel/fmha_kernel_bwd_sum_OdO.hpp
--- a/csrc/sm100/kernel/fmha_options.hpp
+++ b/csrc/sm100/kernel/fmha_options.hpp
--- a/csrc/sm100/kernel/fmha_tile_scheduler.hpp
+++ b/csrc/sm100/kernel/fmha_tile_scheduler.hpp
--- a/csrc/sm100/kernel/sm100_fmha_bwd_kernel_tma_warpspecialized.hpp
+++ b/csrc/sm100/kernel/sm100_fmha_bwd_kernel_tma_warpspecialized.hpp
--- a/csrc/sm100/kernel/sm100_fmha_bwd_mla_kernel_tma_warpspecialized.hpp
+++ b/csrc/sm100/kernel/sm100_fmha_bwd_mla_kernel_tma_warpspecialized.hpp
--- a/csrc/sm100/kernel/sm100_fmha_fwd_kernel_tma_warpspecialized.hpp
+++ b/csrc/sm100/kernel/sm100_fmha_fwd_kernel_tma_warpspecialized.hpp
--- a/csrc/sm100/pybind.cu
+++ b/csrc/sm100/pybind.cu
+#include <torch/python.h>
+
+void FMHACutlassSM100FwdRun(at::Tensor workspace_buffer, at::Tensor q, at::Tensor k, at::Tensor v,
+                            at::Tensor cumulative_seqlen_q, at::Tensor cumulative_seqlen_kv,
+                            at::Tensor o, at::Tensor lse,
+                            int mask_mode_code, float softmax_scale, int max_seqlen_q, int max_seqlen_kv, bool is_varlen);
+
+void FMHACutlassSM100BwdRun(at::Tensor workspace_buffer, at::Tensor d_o, at::Tensor q, at::Tensor k,
+                            at::Tensor v, at::Tensor o, at::Tensor lse,
+                            at::Tensor cumulative_seqlen_q, at::Tensor cumulative_seqlen_kv,
+                            at::Tensor dq, at::Tensor dk, at::Tensor dv,
+                            int mask_mode_code, float softmax_scale, int max_seqlen_q, int max_seqlen_kv, bool is_varlen);
+
+PYBIND11_MODULE(TORCH_EXTENSION_NAME, m) {
+    m.def("fwd", &FMHACutlassSM100FwdRun);
+    m.def("bwd", &FMHACutlassSM100BwdRun);
+}
--- a/csrc/flash_api.cpp
+++ b/csrc/flash_api.cpp
--- a/csrc/kernels/config.h
+++ b/csrc/kernels/config.h
--- a/csrc/kernels/get_mla_metadata.cu
+++ b/csrc/kernels/get_mla_metadata.cu
--- a/csrc/kernels/get_mla_metadata.h
+++ b/csrc/kernels/get_mla_metadata.h
--- a/csrc/kernels/mla_combine.cu
+++ b/csrc/kernels/mla_combine.cu
--- a/csrc/kernels/mla_combine.h
+++ b/csrc/kernels/mla_combine.h
--- a/csrc/kernels/params.h
+++ b/csrc/kernels/params.h
--- a/csrc/kernels/splitkv_mla.cu
+++ b/csrc/kernels/splitkv_mla.cu
--- a/csrc/kernels/splitkv_mla.h
+++ b/csrc/kernels/splitkv_mla.h
--- a/csrc/kernels/traits.h
+++ b/csrc/kernels/traits.h
--- a/csrc/kernels/utils.h
+++ b/csrc/kernels/utils.h