update fa interface

2b84890b · zhuwenwen · 9c663e50 · 2b84890b
Commit 2b84890b authored Sep 11, 2025 by zhuwenwen
Hide whitespace changes
Inline Side-by-side

Showing with 34 additions and 16 deletions

vllm/attention/backends/dual_chunk_flash_attn.py vllm/attention/backends/dual_chunk_flash_attn.py +34 -16

No files found.
--- a/vllm/attention/backends/dual_chunk_flash_attn.py
+++ b/vllm/attention/backends/dual_chunk_flash_attn.py
@@ -1215,22 +1215,40 @@ class DualChunkFlashAttentionImpl(FlashAttentionImpl):
                s_lse = s_lse.view(q_len, q_heads, 1).transpose(0, 2).float()
            return res, s_lse
-        output, softmax_lse = flash_attn_varlen_func(
+        if not current_platform.is_rocm():
-            q=query_states,
+            output, softmax_lse = flash_attn_varlen_func(
-            k=key_states,
+                q=query_states,
-            v=value_states,
+                k=key_states,
-            softmax_scale=softmax_scale,
+                v=value_states,
-            cu_seqlens_q=torch.tensor([0, query_states.shape[0]],
+                softmax_scale=softmax_scale,
-                                      dtype=torch.int32,
+                cu_seqlens_q=torch.tensor([0, query_states.shape[0]],
-                                      device=query_states.device),
+                                        dtype=torch.int32,
-            max_seqlen_q=query_states.shape[0],
+                                        device=query_states.device),
-            cu_seqlens_k=torch.tensor([0, max_seqlen_k],
+                max_seqlen_q=query_states.shape[0],
-                                      dtype=torch.int32,
+                cu_seqlens_k=torch.tensor([0, max_seqlen_k],
-                                      device=query_states.device),
+                                        dtype=torch.int32,
-            max_seqlen_k=max_seqlen_k,
+                                        device=query_states.device),
-            causal=causal,
+                max_seqlen_k=max_seqlen_k,
-            return_softmax_lse=True,
+                causal=causal,
-        )
+                return_softmax_lse=True,
+            )
+        else:
+            output, softmax_lse = flash_attn_varlen_func(
+                q=query_states,
+                k=key_states,
+                v=value_states,
+                softmax_scale=softmax_scale,
+                cu_seqlens_q=torch.tensor([0, query_states.shape[0]],
+                                        dtype=torch.int32,
+                                        device=query_states.device),
+                max_seqlen_q=query_states.shape[0],
+                cu_seqlens_k=torch.tensor([0, max_seqlen_k],
+                                        dtype=torch.int32,
+                                        device=query_states.device),
+                max_seqlen_k=max_seqlen_k,
+                causal=causal,
+                return_attn_probs=True,
+            )
        softmax_lse = softmax_lse.view(q_len, q_heads, 1).transpose(0,
                                                                    2).float()
        return output, softmax_lse