Disable prefix cache by default for benchmark (#18639)

Signed-off-by: cascade812 <cascade812@outlook.com>

Disable prefix cache by default for benchmark (#18639)
Signed-off-by: cascade812 <cascade812@outlook.com>
aaa4ac1c · cascade · GitHub · 06a03380 · aaa4ac1c · aaa4ac1c
Unverified Commit aaa4ac1c authored May 27, 2025 by cascade Committed by GitHub May 27, 2025
Show whitespace changes
Inline Side-by-side

Showing with 6 additions and 0 deletions

benchmarks/benchmark_latency.py benchmarks/benchmark_latency.py +3 -0

vllm/benchmarks/latency.py vllm/benchmarks/latency.py +3 -0

No files found.
--- a/benchmarks/benchmark_latency.py
+++ b/benchmarks/benchmark_latency.py
@@ -189,5 +189,8 @@ if __name__ == "__main__":
    )
    parser = EngineArgs.add_cli_args(parser)
+    # V1 enables prefix caching by default which skews the latency
+    # numbers. We need to disable prefix caching by default.
+    parser.set_defaults(enable_prefix_caching=False)
    args = parser.parse_args()
    main(args)
--- a/vllm/benchmarks/latency.py
+++ b/vllm/benchmarks/latency.py
@@ -80,6 +80,9 @@ def add_cli_args(parser: argparse.ArgumentParser):
    )
    parser = EngineArgs.add_cli_args(parser)
+    # V1 enables prefix caching by default which skews the latency
+    # numbers. We need to disable prefix caching by default.
+    parser.set_defaults(enable_prefix_caching=True)
 def main(args: argparse.Namespace):