Fix KV Offloading + MLA AssertionError by using num_kv_heads=1 in cpu… (#37536)

Signed-off-by: xueliangyang-oeuler <yxl546827391@gmail.com> Co-authored-by: xueliangyang-oeuler <yxl546827391@gmail.com>

Fix KV Offloading + MLA AssertionError by using num_kv_heads=1 in cpu… (#37536)
Signed-off-by: xueliangyang-oeuler <yxl546827391@gmail.com> Co-authored-by: xueliangyang-oeuler <yxl546827391@gmail.com>
e390742c · XueLiang Yang · GitHub · 7a6ebcbf · e390742c
Unverified Commit e390742c authored Mar 19, 2026 by XueLiang Yang Committed by GitHub Mar 19, 2026
Show whitespace changes
Inline Side-by-side

Showing with 1 addition and 1 deletion

vllm/v1/kv_offload/worker/cpu_gpu.py vllm/v1/kv_offload/worker/cpu_gpu.py +1 -1

No files found.
--- a/vllm/v1/kv_offload/worker/cpu_gpu.py
+++ b/vllm/v1/kv_offload/worker/cpu_gpu.py
@@ -240,7 +240,7 @@ class CpuGpuOffloadingHandlers:
            gpu_shape = gpu_tensor.shape
            attn_backend = attn_backends[layer_name]
            test_shape = attn_backend.get_kv_cache_shape(
-                num_blocks=1234, block_size=16, num_kv_heads=8, head_size=256
+                num_blocks=1234, block_size=16, num_kv_heads=1, head_size=256
            )

            has_layers_dim = False