[Bugfix] Fix cache block size calculation for CPU MLA (#15848)

Signed-off-by: Thien Tran <gau.nernst@yahoo.com.sg>

[Bugfix] Fix cache block size calculation for CPU MLA (#15848)
Signed-off-by: Thien Tran <gau.nernst@yahoo.com.sg>
2edc87b1 · Thien Tran · GitHub · 4203926f · 2edc87b1
Unverified Commit 2edc87b1 authored Apr 02, 2025 by Thien Tran Committed by GitHub Apr 02, 2025
Show whitespace changes
Inline Side-by-side

Showing with 1 addition and 1 deletion

vllm/worker/cpu_worker.py vllm/worker/cpu_worker.py +1 -1

No files found.
--- a/vllm/worker/cpu_worker.py
+++ b/vllm/worker/cpu_worker.py
@@ -106,7 +106,7 @@ class CPUCacheEngine:
        num_layers = model_config.get_num_layers(parallel_config)
        key_cache_block = block_size * num_heads * head_size
-        value_cache_block = key_cache_block
+        value_cache_block = key_cache_block if not model_config.use_mla else 0
        total = num_layers * (key_cache_block + value_cache_block)
        if cache_dtype == "auto":
            dtype = model_config.dtype