fix: remove small --gpu-memory-utilization to avoid OOM due to vllm upgrade (#4899)

Signed-off-by: Ziqi Fan <ziqif@nvidia.com>

fix: remove small --gpu-memory-utilization to avoid OOM due to vllm upgrade (#4899)
Signed-off-by: Ziqi Fan <ziqif@nvidia.com>
31f31e8e · Ziqi Fan · GitHub · 5e96c9a8 · 31f31e8e · 31f31e8e
Unverified Commit 31f31e8e authored Dec 11, 2025 by Ziqi Fan Committed by GitHub Dec 11, 2025
3 changed files
--- a/examples/backends/vllm/deploy/agg_kvbm.yaml
+++ b/examples/backends/vllm/deploy/agg_kvbm.yaml
@@ -40,8 +40,6 @@ spec:
          args:
            - --model
            - Qwen/Qwen3-8B
-            - --gpu-memory-utilization
-            - "0.45"
            - --max-model-len
            - "32000"
            - --enforce-eager

--- a/examples/backends/vllm/deploy/disagg_kvbm.yaml
+++ b/examples/backends/vllm/deploy/disagg_kvbm.yaml
@@ -33,8 +33,6 @@ spec:
          args:
            - --model
            - Qwen/Qwen3-8B
-            - --gpu-memory-utilization
-            - "0.3"
            - --max-model-len
            - "32000"
            - --enforce-eager
@@ -65,8 +63,6 @@ spec:
            - --model
            - Qwen/Qwen3-8B
            - --is-prefill-worker
-            - --gpu-memory-utilization
-            - "0.3"
            - --max-model-len
            - "32000"
            - --enforce-eager

--- a/examples/backends/vllm/deploy/disagg_kvbm_2p2d.yaml
+++ b/examples/backends/vllm/deploy/disagg_kvbm_2p2d.yaml
@@ -33,8 +33,6 @@ spec:
          args:
            - --model
            - Qwen/Qwen3-8B
-            - --gpu-memory-utilization
-            - "0.3"
            - --max-model-len
            - "32000"
            - --enforce-eager
@@ -65,8 +63,6 @@ spec:
            - --model
            - Qwen/Qwen3-8B
            - --is-prefill-worker
-            - --gpu-memory-utilization
-            - "0.3"
            - --max-model-len
            - "32000"
            - --enforce-eager