Prefer FlashAttention MLA as default over FlashMLA (#27363)

Signed-off-by: Matthew Bonanni <mbonanni@redhat.com>

Prefer FlashAttention MLA as default over FlashMLA (#27363)
Signed-off-by: Matthew Bonanni <mbonanni@redhat.com>
684f2545 · Matthew Bonanni · GitHub · e5534249 · 684f2545
Unverified Commit 684f2545 authored Nov 11, 2025 by Matthew Bonanni Committed by GitHub Nov 11, 2025
Show whitespace changes
Inline Side-by-side

Showing with 2 additions and 2 deletions

vllm/platforms/cuda.py vllm/platforms/cuda.py +2 -2

No files found.
--- a/vllm/platforms/cuda.py
+++ b/vllm/platforms/cuda.py
@@ -55,15 +55,15 @@ def _get_backend_priorities(
            return [
                AttentionBackendEnum.CUTLASS_MLA,
                AttentionBackendEnum.FLASHINFER_MLA,
-                AttentionBackendEnum.FLASHMLA,
                AttentionBackendEnum.FLASH_ATTN_MLA,
+                AttentionBackendEnum.FLASHMLA,
                AttentionBackendEnum.TRITON_MLA,
                AttentionBackendEnum.FLASHMLA_SPARSE,
            ]
        else:
            return [
-                AttentionBackendEnum.FLASHMLA,
                AttentionBackendEnum.FLASH_ATTN_MLA,
+                AttentionBackendEnum.FLASHMLA,
                AttentionBackendEnum.FLASHINFER_MLA,
                AttentionBackendEnum.TRITON_MLA,
                AttentionBackendEnum.FLASHMLA_SPARSE,