[Bugfix] Fix logic for choosing default prefix caching setting (#29393)

Signed-off-by: Thomas Parnell <tpa@zurich.ibm.com>

[Bugfix] Fix logic for choosing default prefix caching setting (#29393)
Signed-off-by: Thomas Parnell <tpa@zurich.ibm.com>
516c3f78 · Thomas Parnell · GitHub · 51fc9e01 · 516c3f78 · 516c3f78
Unverified Commit 516c3f78 authored Nov 25, 2025 by Thomas Parnell Committed by GitHub Nov 25, 2025
Hide whitespace changes
Inline Side-by-side

Showing with 7 additions and 2 deletions

tests/engine/test_arg_utils.py tests/engine/test_arg_utils.py +2 -1

vllm/engine/arg_utils.py vllm/engine/arg_utils.py +5 -1

No files found.
--- a/tests/engine/test_arg_utils.py
+++ b/tests/engine/test_arg_utils.py
@@ -277,8 +277,9 @@ def test_prefix_cache_default():
    parser = EngineArgs.add_cli_args(FlexibleArgumentParser())
    args = parser.parse_args([])

+    # should be None by default (depends on model).
    engine_args = EngineArgs.from_cli_args(args=args)
-    assert engine_args.enable_prefix_caching, "prefix caching should default to on."
+    assert engine_args.enable_prefix_caching is None

    # with flag to turn it on.
    args = parser.parse_args(["--enable-prefix-caching"])

--- a/vllm/engine/arg_utils.py
+++ b/vllm/engine/arg_utils.py
@@ -880,7 +880,11 @@ class EngineArgs:
            "--num-gpu-blocks-override", **cache_kwargs["num_gpu_blocks_override"]
        )
        cache_group.add_argument(
-            "--enable-prefix-caching", **cache_kwargs["enable_prefix_caching"]
+            "--enable-prefix-caching",
+            **{
+                **cache_kwargs["enable_prefix_caching"],
+                "default": None,
+            },
        )
        cache_group.add_argument(
            "--prefix-caching-hash-algo", **cache_kwargs["prefix_caching_hash_algo"]