[Kernel] [CPU] refactor `cpu_attn.py:_run_sdpa_forward` for better memory access (#24701)

Signed-off-by: ignaciosica <mignacio.sica@gmail.com>

[Kernel] [CPU] refactor `cpu_attn.py:_run_sdpa_forward` for better memory access (#24701)
Signed-off-by: ignaciosica <mignacio.sica@gmail.com>
7a1c4025 · Ignacio Sica · GitHub · 60a09519 · 7a1c4025
Unverified Commit 7a1c4025 authored Sep 12, 2025 by Ignacio Sica Committed by GitHub Sep 12, 2025
Show whitespace changes
Inline Side-by-side

Showing with 4 additions and 4 deletions

vllm/v1/attention/backends/cpu_attn.py vllm/v1/attention/backends/cpu_attn.py +4 -4

No files found.
--- a/vllm/v1/attention/backends/cpu_attn.py
+++ b/vllm/v1/attention/backends/cpu_attn.py
@@ -641,10 +641,6 @@ class TorchSDPABackendImpl(AttentionImpl[TorchSDPAMetadata]):
        attn_metadata: TorchSDPAMetadata,
        attn_type: str = AttentionType.DECODER,
    ) -> None:
-        if self.num_kv_heads != self.num_heads:
-            key = key.repeat_interleave(self.num_queries_per_kv, dim=1)
-            value = value.repeat_interleave(self.num_queries_per_kv, dim=1)
-
        attn_masks = attn_metadata.get_attn_bias(attn_type)
        if attn_masks is None:
            if self.alibi_slopes is not None:
@@ -665,6 +661,10 @@ class TorchSDPABackendImpl(AttentionImpl[TorchSDPAMetadata]):
        key = key.movedim(0, key.dim() - 2)
        value = value.movedim(0, value.dim() - 2)

+        if self.num_kv_heads != self.num_heads:
+            key = key.repeat_interleave(self.num_queries_per_kv, dim=-3)
+            value = value.repeat_interleave(self.num_queries_per_kv, dim=-3)
+
        causal_attn = (attn_type == AttentionType.DECODER)

        seq_lens_q, seq_lens_kv = attn_metadata.get_seq_lens(attn_type)