[CPU] Change default block_size for CPU backend (#16002)

Signed-off-by: jiang1.li <jiang1.li@intel.com>

[CPU] Change default block_size for CPU backend (#16002)
Signed-off-by: jiang1.li <jiang1.li@intel.com>
2386803f · Li, Jiang · GitHub · 95862f7b · 2386803f
Unverified Commit 2386803f authored Apr 05, 2025 by Li, Jiang Committed by GitHub Apr 04, 2025
Hide whitespace changes
Inline Side-by-side

Showing with 9 additions and 1 deletion

vllm/platforms/cpu.py vllm/platforms/cpu.py +9 -1

No files found.
--- a/vllm/platforms/cpu.py
+++ b/vllm/platforms/cpu.py
@@ -2,6 +2,7 @@
 import os
 import sys
+from importlib.util import find_spec
 from typing import TYPE_CHECKING, Optional
 import psutil
@@ -68,8 +69,15 @@ class CpuPlatform(Platform):
        cache_config = vllm_config.cache_config
+        ipex_avaliable = find_spec("intel_extension_for_pytorch") is not None
        if cache_config and cache_config.block_size is None:
-            cache_config.block_size = 16
+            cache_config.block_size = 128 if ipex_avaliable else 16
+        if not ipex_avaliable and cache_config.block_size != 16:
+            raise RuntimeError(
+                f"--block-size={cache_config.block_size} requires"
+                " intel_extension_for_pytorch")
        scheduler_config = vllm_config.scheduler_config
        if ((scheduler_config.chunked_prefill_enabled