[XPU] Disable xpu graph by default (#38193)

Signed-off-by: Kunshang Ji <kunshang.ji@intel.com>

[XPU] Disable xpu graph by default (#38193)
Signed-off-by: Kunshang Ji <kunshang.ji@intel.com>
6ae8bbd0 · Kunshang Ji · GitHub · a9213c0f · 6ae8bbd0 · 6ae8bbd0
Unverified Commit 6ae8bbd0 authored Mar 26, 2026 by Kunshang Ji Committed by GitHub Mar 26, 2026
Hide whitespace changes
Inline Side-by-side

Showing with 12 additions and 0 deletions

vllm/envs.py vllm/envs.py +5 -0

vllm/platforms/xpu.py vllm/platforms/xpu.py +7 -0

No files found.
--- a/vllm/envs.py
+++ b/vllm/envs.py
@@ -247,6 +247,7 @@ if TYPE_CHECKING:
    VLLM_ELASTIC_EP_DRAIN_REQUESTS: bool = False
    VLLM_MEMORY_PROFILER_ESTIMATE_CUDAGRAPHS: bool = False
    VLLM_NIXL_EP_MAX_NUM_RANKS: int = 32
+    VLLM_XPU_ENABLE_XPU_GRAPH: bool = False
 def get_default_cache_root():
@@ -1648,6 +1649,10 @@ environment_variables: dict[str, Callable[[], Any]] = {
    "VLLM_NIXL_EP_MAX_NUM_RANKS": lambda: int(
        os.getenv("VLLM_NIXL_EP_MAX_NUM_RANKS", "32")
    ),
+    # Whether enable XPU graph on Intel GPU
+    "VLLM_XPU_ENABLE_XPU_GRAPH": lambda: bool(
+        int(os.getenv("VLLM_XPU_ENABLE_XPU_GRAPH", "0"))
+    ),
 }

--- a/vllm/platforms/xpu.py
+++ b/vllm/platforms/xpu.py
@@ -12,6 +12,7 @@ import vllm_xpu_kernels._C  # noqa
 import vllm_xpu_kernels._moe_C  # noqa
 import vllm_xpu_kernels._xpu_C  # noqa
+import vllm.envs as envs
 from vllm.logger import init_logger
 from vllm.utils.torch_utils import supports_xpu_graph
 from vllm.v1.attention.backends.registry import AttentionBackendEnum
@@ -181,6 +182,12 @@ class XPUPlatform(Platform):
                "XPU Graph is not supported in the current PyTorch version, "
                "disabling cudagraph_mode."
            )
+        elif not envs.VLLM_XPU_ENABLE_XPU_GRAPH:
+            compilation_config.cudagraph_mode = CUDAGraphMode.NONE
+            logger.warning(
+                "XPU Graph is disabled by environment variable, "
+                "please set VLLM_XPU_ENABLE_XPU_GRAPH=1 to enable it."
+            )
        elif parallel_config.world_size_across_dp > 1:
            compilation_config.cudagraph_mode = CUDAGraphMode.NONE
            logger.warning(