[Bugfix] Fix CPU backend crash in KV cache block zeroing (#37550)

Signed-off-by: DorBernsohn <dor.bernsohn@gmail.com>

[Bugfix] Fix CPU backend crash in KV cache block zeroing (#37550)
Signed-off-by: DorBernsohn <dor.bernsohn@gmail.com>
7938d121 · DorBernsohn · GitHub · debd6e76 · 7938d121
Unverified Commit 7938d121 authored Mar 23, 2026 by DorBernsohn Committed by GitHub Mar 23, 2026
Show whitespace changes
Inline Side-by-side

Showing with 5 additions and 0 deletions

vllm/v1/worker/cpu_model_runner.py vllm/v1/worker/cpu_model_runner.py +5 -0

No files found.
--- a/vllm/v1/worker/cpu_model_runner.py
+++ b/vllm/v1/worker/cpu_model_runner.py
@@ -88,6 +88,11 @@ class CPUModelRunner(GPUModelRunner):
    def _sync_device(self) -> None:
        pass

+    def _zero_block_ids(self, block_ids: list[int]) -> None:
+        # CPU attention assigns -INF to logits at invalid positions,
+        # so stale KV cache data never affects computation.
+        pass
+
    def get_dp_padding(self, num_tokens: int) -> tuple[int, torch.Tensor | None]:
        # Note: For CPU backend, dp padding is not required for now.
        return 0, None