fix: Reduce memory usage to avoid vLLM dsr1 OOM (#3660)

29f5b822 · Kris Hung · GitHub · 43d687e8 · 29f5b822
Unverified Commit 29f5b822 authored Oct 15, 2025 by Kris Hung Committed by GitHub Oct 15, 2025
Hide whitespace changes
Inline Side-by-side

Showing with 2 additions and 2 deletions

components/backends/vllm/launch/dsr1_dep.sh components/backends/vllm/launch/dsr1_dep.sh +2 -2

No files found.
--- a/components/backends/vllm/launch/dsr1_dep.sh
+++ b/components/backends/vllm/launch/dsr1_dep.sh
@@ -101,10 +101,10 @@ for ((i=0; i<GPUS_PER_NODE; i++)); do
        --data_parallel_size $DATA_PARALLEL_SIZE \
        --data-parallel-rank $dp_rank \
        --enable-expert-parallel \
-        --max-model-len 10240 \
+        --max-model-len 4096 \
        --data-parallel-address $MASTER_ADDR \
        --data-parallel-rpc-port 13345 \
-        --gpu-memory-utilization 0.95 \
+        --gpu-memory-utilization 0.9 \
        --enforce-eager 2>&1 | tee $LOG_DIR/dsr1_dep_${dp_rank}.log &
 done