update VLLM_USE_TRITON_CAT during the prefill phase

7d959770 · zhuwenwen · 072d4638 · 7d959770
Commit 7d959770 authored Sep 10, 2025 by zhuwenwen
Show whitespace changes
Inline Side-by-side

Showing with 2 additions and 2 deletions

vllm/v1/attention/backends/mla/common.py vllm/v1/attention/backends/mla/common.py +2 -2

No files found.
--- a/vllm/v1/attention/backends/mla/common.py
+++ b/vllm/v1/attention/backends/mla/common.py
@@ -923,7 +923,7 @@ class MLACommonImpl(MLAAttentionImpl[M], Generic[M]):
                .split([self.qk_nope_head_dim, self.v_head_dim], dim=-1)
            if envs.VLLM_USE_TRITON_CAT:
-                k = concat_helper((k_nope, k_pe.expand((*k_nope.shape[:-1], -1))),
+                k = concat_helper(k_nope, k_pe.expand((*k_nope.shape[:-1], -1)),
                            dim=-1)
            else:
                k = torch.cat((k_nope, k_pe.expand((*k_nope.shape[:-1], -1))),
@@ -983,7 +983,7 @@ class MLACommonImpl(MLAAttentionImpl[M], Generic[M]):
            .split([self.qk_nope_head_dim, self.v_head_dim], dim=-1)
        if envs.VLLM_USE_TRITON_CAT:
-            k = concat_helper((k_nope, k_pe.expand((*k_nope.shape[:-1], -1))), dim=-1)
+            k = concat_helper(k_nope, k_pe.expand((*k_nope.shape[:-1], -1)), dim=-1)
        else:
            k = torch.cat((k_nope, k_pe.expand((*k_nope.shape[:-1], -1))), dim=-1)