Update FA version (#838)

Bump FA version to 2.5.8 Signed-off-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com>

Update FA version (#838)
Bump FA version to 2.5.8 Signed-off-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com>
2bdeb6f5 · Kirthi Shankar Sivamani · GitHub · a51ff542 · 2bdeb6f5 · 2bdeb6f5
Unverified Commit 2bdeb6f5 authored May 09, 2024 by Kirthi Shankar Sivamani Committed by GitHub May 09, 2024
Show whitespace changes
Inline Side-by-side

Showing with 5 additions and 1 deletion

setup.py setup.py +1 -1

transformer_engine/pytorch/attention.py transformer_engine/pytorch/attention.py +4 -0

No files found.
--- a/setup.py
+++ b/setup.py
@@ -265,7 +265,7 @@ def setup_requirements() -> Tuple[List[str], List[str], List[str]]:
    # Framework-specific requirements
    if "pytorch" in frameworks():
-        add_unique(install_reqs, ["torch", "flash-attn>=2.0.6,<=2.4.2,!=2.0.9,!=2.1.0"])
+        add_unique(install_reqs, ["torch", "flash-attn>=2.0.6,<=2.5.8,!=2.0.9,!=2.1.0"])
        add_unique(test_reqs, ["numpy", "onnxruntime", "torchvision"])
    if "jax" in frameworks():
        if not found_pybind11():

--- a/transformer_engine/pytorch/attention.py
+++ b/transformer_engine/pytorch/attention.py
@@ -69,6 +69,7 @@ from transformer_engine.pytorch.graph import is_graph_capturing
 _flash_attn_version = packaging.version.Version(version("flash-attn"))
 _flash_attn_version_required = packaging.version.Version("2.0.6")
+_flash_attn_max_version = packaging.version.Version("2.5.8")
 _flash_attn_2_1_plus = _flash_attn_version >= packaging.version.Version("2.1")
 _flash_attn_2_3_plus = _flash_attn_version >= packaging.version.Version("2.3")
 _flash_attn_2_4_plus = _flash_attn_version >= packaging.version.Version("2.4")
@@ -1931,6 +1932,9 @@ class FlashAttention(torch.nn.Module):
        assert (
            _flash_attn_version >= _flash_attn_version_required
        ), f"FlashAttention minimum version {_flash_attn_version_required} is required."
+        assert (
+            _flash_attn_version <= _flash_attn_max_version
+        ), f"FlashAttention maximum version {_flash_attn_max_version} is supported."
        self.norm_factor = norm_factor
        self.attention_dropout_ctx = attention_dropout_ctx