[PyTorch] Bump minimum cuDNN version for fused attention with FP8 current scaling (#2236)

* Require cuDNN 9.14.0+ for fused attention with FP8 current scaling Signed-off-by: Tim Moon <tmoon@nvidia.com> * [pre-commit.ci] auto fixes from pre-commit.com hooks for more information, see https://pre-commit.ci --------- Signed-off-by: Tim Moon <tmoon@nvidia.com> Co-authored-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com>

[PyTorch] Bump minimum cuDNN version for fused attention with FP8 current scaling (#2236)
* Require cuDNN 9.14.0+ for fused attention with FP8 current scaling Signed-off-by: Tim Moon <tmoon@nvidia.com> * [pre-commit.ci] auto fixes from pre-commit.com hooks for more information, see https://pre-commit.ci --------- Signed-off-by: Tim Moon <tmoon@nvidia.com> Co-authored-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com>
fd2f589f · Tim Moon · GitHub · 85a91997 · fd2f589f
Unverified Commit fd2f589f authored Oct 14, 2025 by Tim Moon Committed by GitHub Oct 14, 2025
Show whitespace changes
Inline Side-by-side

Showing with 7 additions and 7 deletions

transformer_engine/pytorch/attention/dot_product_attention/utils.py ...r_engine/pytorch/attention/dot_product_attention/utils.py +7 -7

No files found.
--- a/transformer_engine/pytorch/attention/dot_product_attention/utils.py
+++ b/transformer_engine/pytorch/attention/dot_product_attention/utils.py
@@ -469,13 +469,13 @@ def get_attention_backend(
        fp8_recipe = fp8_meta["recipe"]
        if fp8_meta.get("local_recipes", None) is not None:
            fp8_recipe = fp8_meta["local_recipes"][0]
-        if (
+        if use_fused_attention and fp8_recipe.float8_current_scaling():
-            use_fused_attention
+            if device_compute_capability < (10, 0):
-            and fp8_recipe.float8_current_scaling()
-            and device_compute_capability < (10, 0)
-        ):
                logger.debug("Disabling FusedAttention for FP8 current scaling on arch < sm100")
                use_fused_attention = False
+            elif cudnn_version < (9, 14, 0):
+                logger.debug("Disabling FusedAttention for FP8 current scaling with cuDNN < 9.14.0")
+                use_fused_attention = False
    # Filter: KV cache
    # backend  | precision      |    KV cache     | architecture | qkv_format    | page_size