[Bugfix] Disable prefix caching by default for benchmark (#18771)

Signed-off-by: cascade812 <cascade812@outlook.com>

[Bugfix] Disable prefix caching by default for benchmark (#18771)
Signed-off-by: cascade812 <cascade812@outlook.com>
51e98e4f · cascade · GitHub · e56f44d9 · 51e98e4f
Unverified Commit 51e98e4f authored May 27, 2025 by cascade Committed by GitHub May 28, 2025
Hide whitespace changes
Inline Side-by-side

Showing with 1 addition and 1 deletion

vllm/benchmarks/latency.py vllm/benchmarks/latency.py +1 -1

No files found.
--- a/vllm/benchmarks/latency.py
+++ b/vllm/benchmarks/latency.py
@@ -82,7 +82,7 @@ def add_cli_args(parser: argparse.ArgumentParser):
    parser = EngineArgs.add_cli_args(parser)
    # V1 enables prefix caching by default which skews the latency
    # numbers. We need to disable prefix caching by default.
-    parser.set_defaults(enable_prefix_caching=True)
+    parser.set_defaults(enable_prefix_caching=False)
 def main(args: argparse.Namespace):