use VLLM_USE_TRITON_CAT during the prefill phase

072d4638 · zhuwenwen · ff090f36 · 072d4638
Commit 072d4638 authored Sep 10, 2025 by zhuwenwen
Show whitespace changes
Inline Side-by-side

Showing with 4 additions and 1 deletion

vllm/v1/attention/backends/mla/common.py vllm/v1/attention/backends/mla/common.py +4 -1

No files found.
--- a/vllm/v1/attention/backends/mla/common.py
+++ b/vllm/v1/attention/backends/mla/common.py
@@ -982,6 +982,9 @@ class MLACommonImpl(MLAAttentionImpl[M], Generic[M]):
        k_nope, v = kv_nope\
            .split([self.qk_nope_head_dim, self.v_head_dim], dim=-1)
+        if envs.VLLM_USE_TRITON_CAT:
+            k = concat_helper((k_nope, k_pe.expand((*k_nope.shape[:-1], -1))), dim=-1)
+        else:
            k = torch.cat((k_nope, k_pe.expand((*k_nope.shape[:-1], -1))), dim=-1)
        output = self._flash_attn_varlen_diff_headdims(