Add more GPU architctures support (#76)

* Add more GPU architctures support * Merge fmha and mla runner * add varlen & non varlen support, and add incontiguous tensor support * update readme * add varlen api --------- Co-authored-by: dianzhangc <dianzhangc@nvidia.com>

Add more GPU architctures support (#76)
* Add more GPU architctures support * Merge fmha and mla runner * add varlen & non varlen support, and add incontiguous tensor support * update readme * add varlen api --------- Co-authored-by: dianzhangc <dianzhangc@nvidia.com>
41b611f7 · Zeyu WANG · GitHub · 9edee0c0 · 41b611f7 · 41b611f7
Unverified Commit 41b611f7 authored Aug 01, 2025 by Zeyu WANG Committed by GitHub Aug 01, 2025
5 changed files
--- a/flash_mla/__init__.py
+++ b/flash_mla/__init__.py
@@ -3,4 +3,7 @@ __version__ = "1.0.0"
 from flash_mla.flash_mla_interface import (
    get_mla_metadata,
    flash_mla_with_kvcache,
+    flash_attn_varlen_func,
+    flash_attn_varlen_qkvpacked_func,
+    flash_attn_varlen_kvpacked_func,
 )
--- a/flash_mla/flash_mla_interface.py
+++ b/flash_mla/flash_mla_interface.py
--- a/setup.py
+++ b/setup.py
--- a/tests/test_flash_mla.py
+++ b/tests/test_flash_mla.py
--- a/tests/test_fmha_sm100.py
+++ b/tests/test_fmha_sm100.py