fix: remove bash wrapper for vllm dsr1 recipe (#6035)

Co-authored-by: Claude Opus 4.6 <noreply@anthropic.com>

fix: remove bash wrapper for vllm dsr1 recipe (#6035)
Co-authored-by: Claude Opus 4.6 <noreply@anthropic.com>
74d3db65 · Hongkuan Zhou · GitHub · 3a418254 · 74d3db65
Unverified Commit 74d3db65 authored Feb 06, 2026 by Hongkuan Zhou Committed by GitHub Feb 06, 2026
Show whitespace changes
Inline Side-by-side

Showing with 55 additions and 38 deletions

recipes/deepseek-r1/vllm/disagg/deploy_hopper_16gpu.yaml recipes/deepseek-r1/vllm/disagg/deploy_hopper_16gpu.yaml +55 -38

No files found.
--- a/recipes/deepseek-r1/vllm/disagg/deploy_hopper_16gpu.yaml
+++ b/recipes/deepseek-r1/vllm/disagg/deploy_hopper_16gpu.yaml
@@ -68,26 +68,35 @@ spec:
            - name: GLOO_SOCKET_IFNAME
              value: eth0
          command:
-            - /bin/bash
+            - python3
-            - -c
+            - -m
+            - dynamo.vllm
          args:
-            - |
+            - --model
-              exec python3 -m dynamo.vllm \
+            - /model-cache/deepseek-r1
-                --model /model-cache/deepseek-r1 \
+            - --served-model-name
-                --served-model-name deepseek-ai/DeepSeek-R1 \
+            - deepseek-ai/DeepSeek-R1
-                --all2all-backend deepep_low_latency \
+            - --all2all-backend
-                --data-parallel-hybrid-lb \
+            - deepep_low_latency
-                --tensor-parallel-size 1 \
+            - --data-parallel-hybrid-lb
-                --data-parallel-size 16 \
+            - --tensor-parallel-size
-                --enable-expert-parallel \
+            - "1"
-                --max-model-len 16384 \
+            - --data-parallel-size
-                --enable-dbo \
+            - "16"
-                --dbo-decode-token-threshold 32 \
+            - --enable-expert-parallel
-                --async-scheduling \
+            - --max-model-len
-                --enable-eplb \
+            - "16384"
-                --eplb-config '{"window_size":"1000","step_interval":"3000","num_redundant_experts":"32","log_balancedness":"False"}' \
+            - --enable-dbo
-                --max-num-seqs 512 \
+            - --dbo-decode-token-threshold
-                --compilation_config '{"pass_config":{"fuse_norm_quant":true,"eliminate_noops":true},"cudagraph_mode":"FULL_DECODE_ONLY"}'
+            - "32"
+            - --async-scheduling
+            - --enable-eplb
+            - --eplb-config
+            - '{"window_size":"1000","step_interval":"3000","num_redundant_experts":"32","log_balancedness":"False"}'
+            - --max-num-seqs
+            - "512"
+            - --compilation_config
+            - '{"pass_config":{"fuse_norm_quant":true,"eliminate_noops":true},"cudagraph_mode":"FULL_DECODE_ONLY"}'
    prefill:
      componentType: worker
      subComponentType: prefill
@@ -127,23 +136,31 @@ spec:
            - name: GLOO_SOCKET_IFNAME
              value: eth0
          command:
-            - /bin/bash
+            - python3
-            - -c
+            - -m
+            - dynamo.vllm
          args:
-            - |
+            - --model
-              exec python3 -m dynamo.vllm \
+            - /model-cache/deepseek-r1
-                --model /model-cache/deepseek-r1 \
+            - --is-prefill-worker
-                --is-prefill-worker \
+            - --served-model-name
-                --served-model-name deepseek-ai/DeepSeek-R1 \
+            - deepseek-ai/DeepSeek-R1
-                --all2all-backend deepep_high_throughput \
+            - --all2all-backend
-                --data-parallel-hybrid-lb \
+            - deepep_high_throughput
-                --tensor-parallel-size 1 \
+            - --data-parallel-hybrid-lb
-                --data-parallel-size 16 \
+            - --tensor-parallel-size
-                --enable-expert-parallel \
+            - "1"
-                --max-model-len 16384 \
+            - --data-parallel-size
-                --enable-dbo \
+            - "16"
-                --dbo-decode-token-threshold 32 \
+            - --enable-expert-parallel
-                --async-scheduling \
+            - --max-model-len
-                --enable-eplb \
+            - "16384"
-                --eplb-config '{"window_size":"1000","step_interval":"3000","num_redundant_experts":"32","log_balancedness":"False"}' \
+            - --enable-dbo
-                --max-num-seqs 512
+            - --dbo-decode-token-threshold
+            - "32"
+            - --async-scheduling
+            - --enable-eplb
+            - --eplb-config
+            - '{"window_size":"1000","step_interval":"3000","num_redundant_experts":"32","log_balancedness":"False"}'
+            - --max-num-seqs
+            - "512"