fix CUDAGraph memory being counted twice (#37426)

Signed-off-by: Peter Pan <Peter.Pan@daocloud.io> Signed-off-by: Peter Pan <peter.pan@daocloud.io> Co-authored-by: Matthew Bonanni <mbonanni@redhat.com>

fix CUDAGraph memory being counted twice (#37426)
Signed-off-by: Peter Pan <Peter.Pan@daocloud.io> Signed-off-by: Peter Pan <peter.pan@daocloud.io> Co-authored-by: Matthew Bonanni <mbonanni@redhat.com>
79eb9369 · Peter Pan · GitHub · e80cfe57 · 79eb9369
Unverified Commit 79eb9369 authored Mar 21, 2026 by Peter Pan Committed by GitHub Mar 20, 2026
Hide whitespace changes
Inline Side-by-side

Showing with 2 additions and 3 deletions

vllm/v1/worker/gpu_worker.py vllm/v1/worker/gpu_worker.py +2 -3

No files found.
--- a/vllm/v1/worker/gpu_worker.py
+++ b/vllm/v1/worker/gpu_worker.py
@@ -417,9 +417,7 @@ class Worker(WorkerBase):
        )

        self.non_torch_memory = profile_result.non_torch_increase
-        self.peak_activation_memory = (
-            profile_result.torch_peak_increase + cudagraph_memory_estimate_applied
-        )
+        self.peak_activation_memory = profile_result.torch_peak_increase
        self.cudagraph_memory_estimate = cudagraph_memory_estimate

        free_gpu_memory = profile_result.after_profile.free_memory
@@ -638,6 +636,7 @@ class Worker(WorkerBase):
            # slightly underestimate the memory consumption.
            # So leave a small buffer (=150MiB) to avoid OOM.
            redundancy_buffer_memory = 150 * (1 << 20)
+
            non_kv_cache_memory = (
                self.model_runner.model_memory_usage
                + self.peak_activation_memory