Fix FP8 current scaling attention logic (#2234)

* Fix in FP8 attention selection logic Signed-off-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com> * Improve logic Signed-off-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com> --------- Signed-off-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com>

Fix FP8 current scaling attention logic (#2234)
* Fix in FP8 attention selection logic Signed-off-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com> * Improve logic Signed-off-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com> --------- Signed-off-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com>
08779fd8 · Kirthi Shankar Sivamani · GitHub · 5be81251 · 08779fd8
Unverified Commit 08779fd8 authored Oct 03, 2025 by Kirthi Shankar Sivamani Committed by GitHub Oct 03, 2025
Show whitespace changes
Inline Side-by-side

Showing with 4 additions and 3 deletions

transformer_engine/pytorch/attention/dot_product_attention/dot_product_attention.py .../attention/dot_product_attention/dot_product_attention.py +4 -3

No files found.
--- a/transformer_engine/pytorch/attention/dot_product_attention/dot_product_attention.py
+++ b/transformer_engine/pytorch/attention/dot_product_attention/dot_product_attention.py
@@ -597,9 +597,10 @@ class DotProductAttention(TransformerEngineBaseModule):
            ]
            fp8_recipe_dpa = fake_recipes[1]
            fp8_recipes = fake_recipes
-        elif fp8_recipe.float8_current_scaling() and _dpa_fp8_recipe in (
-            "",
-            "Float8CurrentScaling",
+        elif (
+            fp8_recipe.float8_current_scaling()
+            and _dpa_fp8_recipe in ("", "Float8CurrentScaling")
+            and (fp8_recipe.fp8_dpa or fp8_recipe.fp8_mha)
        ):
            # use fp8_recipe for QKV, O, dO, dQKV, and construct a DS recipe for S, dP
            # reuse fp8_format, fp8_dpa, fp8_mha from fp8_recipe