[Bugfix] [ROCm] [UX]: revert Flex attention backend (#29371)

Signed-off-by: vllmellm <vllm.ellm@embeddedllm.com>

[Bugfix] [ROCm] [UX]: revert Flex attention backend (#29371)
Signed-off-by: vllmellm <vllm.ellm@embeddedllm.com>
64deead7 · vllmellm · GitHub · 7992324f · 64deead7 · 64deead7
Unverified Commit 64deead7 authored Nov 25, 2025 by vllmellm Committed by GitHub Nov 25, 2025
Showing with 10 additions and 0 deletions

tests/v1/attention/test_rocm_attention_backends_selection.py tests/v1/attention/test_rocm_attention_backends_selection.py +6 -0

vllm/platforms/rocm.py vllm/platforms/rocm.py +4 -0

No files found.
--- a/tests/v1/attention/test_rocm_attention_backends_selection.py
+++ b/tests/v1/attention/test_rocm_attention_backends_selection.py
@@ -36,6 +36,12 @@ def mock_on_gfx9():
 @pytest.mark.parametrize(
    "env_vars, selected_backend, expected_backend_path",
    [
+        # Test Case: Explicit FLEX_ATTENTION backend
+        (
+            {},
+            "FLEX_ATTENTION",
+            AttentionBackendEnum.FLEX_ATTENTION.get_path(),
+        ),
        # Test Case 1: Default (no env vars, no explicit backend)
        (
            {},

--- a/vllm/platforms/rocm.py
+++ b/vllm/platforms/rocm.py
@@ -262,6 +262,10 @@ class RocmPlatform(Platform):
                f"is not MLA type while requested for MLA backend."
            )
+        if selected_backend == AttentionBackendEnum.FLEX_ATTENTION:
+            logger.info("Using FlexAttention backend.")
+            return AttentionBackendEnum.FLEX_ATTENTION.get_path()
        if selected_backend == AttentionBackendEnum.TRITON_ATTN:
            logger.info("Using Triton Attention backend on V1 engine.")
            return AttentionBackendEnum.TRITON_ATTN.get_path()