feat: add --disaggregation-mode enum to vLLM backend (#6483)

Signed-off-by: alec-flowers <aflowers@nvidia.com> Co-authored-by: Claude Opus 4.6 <noreply@anthropic.com>

feat: add --disaggregation-mode enum to vLLM backend (#6483)
Signed-off-by: alec-flowers <aflowers@nvidia.com> Co-authored-by: Claude Opus 4.6 <noreply@anthropic.com>
7893f268 · Alec · GitHub · 6d3e0137 · 7893f268 · 7893f268
Unverified Commit 7893f268 authored Feb 23, 2026 by Alec Committed by GitHub Feb 23, 2026
18 changed files
--- a/recipes/llama-3-70b/vllm/disagg-multi-node/deploy.yaml
+++ b/recipes/llama-3-70b/vllm/disagg-multi-node/deploy.yaml
@@ -42,7 +42,7 @@ spec:
            - name: HF_HOME
              value: /opt/models
          args:
-          - "python3 -m dynamo.vllm --model $MODEL_PATH --served-model-name $SERVED_MODEL_NAME --tensor-parallel-size 8 --data-parallel-size 1 --is-prefill-worker --gpu-memory-utilization 0.90 --no-enable-prefix-caching --block-size 128"
+          - "python3 -m dynamo.vllm --model $MODEL_PATH --served-model-name $SERVED_MODEL_NAME --tensor-parallel-size 8 --data-parallel-size 1 --disaggregation-mode prefill --gpu-memory-utilization 0.90 --no-enable-prefix-caching --block-size 128"
          command:
          - /bin/sh
          - -c

--- a/recipes/llama-3-70b/vllm/disagg-single-node/deploy.yaml
+++ b/recipes/llama-3-70b/vllm/disagg-single-node/deploy.yaml
@@ -54,7 +54,7 @@ spec:
            - name: HF_HOME
              value: /opt/models
          args:
-          - "python3 -m dynamo.vllm --model $MODEL_PATH --served-model-name $SERVED_MODEL_NAME --tensor-parallel-size 2 --data-parallel-size 1 --is-prefill-worker --gpu-memory-utilization 0.90 --no-enable-prefix-caching --block-size 128"
+          - "python3 -m dynamo.vllm --model $MODEL_PATH --served-model-name $SERVED_MODEL_NAME --tensor-parallel-size 2 --data-parallel-size 1 --disaggregation-mode prefill --gpu-memory-utilization 0.90 --no-enable-prefix-caching --block-size 128"
          command:
          - /bin/sh
          - -c

--- a/recipes/qwen3-32b/vllm/disagg-kv-router/deploy.yaml
+++ b/recipes/qwen3-32b/vllm/disagg-kv-router/deploy.yaml
@@ -43,6 +43,8 @@ spec:
          args:
          - --model
          - Qwen/Qwen3-32B
+          - --disaggregation-mode
+          - decode
          - --tensor-parallel-size
          - '2'
          - --disable-log-requests
@@ -95,7 +97,8 @@ spec:
          args:
          - --model
          - Qwen/Qwen3-32B
-          - --is-prefill-worker
+          - --disaggregation-mode
+          - prefill
          - --tensor-parallel-size
          - '2'
          - --disable-log-requests

--- a/tests/fault_tolerance/cancellation/test_vllm.py
+++ b/tests/fault_tolerance/cancellation/test_vllm.py
@@ -70,7 +70,7 @@ class DynamoWorkerProcess(ManagedProcess):
        # Configure health check based on worker type
        if is_prefill:
            # Prefill workers check their own status endpoint
-            command.append("--is-prefill-worker")
+            command.extend(["--disaggregation-mode", "prefill"])
            health_check_urls = [
                (f"http://localhost:{system_port}/health", self.is_ready)
            ]

--- a/tests/fault_tolerance/deploy/templates/vllm/moe_disagg.yaml
+++ b/tests/fault_tolerance/deploy/templates/vllm/moe_disagg.yaml
@@ -126,7 +126,8 @@ spec:
            - --model
            - deepseek-ai/DeepSeek-V2-Lite
            - --trust-remote-code
-            - --is-prefill-worker
+            - --disaggregation-mode
+            - prefill
            - --tensor-parallel-size
            - "1"
            - --data-parallel-size

--- a/tests/fault_tolerance/etcd_ha/test_vllm.py
+++ b/tests/fault_tolerance/etcd_ha/test_vllm.py
@@ -51,7 +51,7 @@ class DynamoWorkerProcess(ManagedProcess):
        # Configure health check based on worker type
        if is_prefill:
            # Prefill workers check their own status endpoint
-            command.append("--is-prefill-worker")
+            command.extend(["--disaggregation-mode", "prefill"])
            health_check_urls = [(f"http://localhost:{port}/health", self.is_ready)]
        else:
            # Decode workers should also check their own status endpoint first,

--- a/tests/fault_tolerance/migration/test_vllm.py
+++ b/tests/fault_tolerance/migration/test_vllm.py
@@ -104,9 +104,9 @@ class DynamoWorkerProcess(ManagedProcess):
            "0.15",  # avoid assertion error on vLLM available memory checks
        ]
        if is_prefill is True:
-            command.append("--is-prefill-worker")
+            command.extend(["--disaggregation-mode", "prefill"])
        elif is_prefill is False:
-            command.append("--is-decode-worker")
+            command.extend(["--disaggregation-mode", "decode"])

        # Aggregated mode and prefill workers publish KV events
        if is_prefill is not False:

--- a/tests/kvbm_integration/test_determinism_disagg.py
+++ b/tests/kvbm_integration/test_determinism_disagg.py
@@ -154,7 +154,8 @@ class LLMServerManager:
            "dynamo.vllm",
            "--model",
            os.environ.get("KVBM_MODEL_ID", "deepseek-ai/DeepSeek-R1-Distill-Llama-8B"),
-            "--is-prefill-worker",
+            "--disaggregation-mode",
+            "prefill",
            "--block-size",
            "16",
            "--max-model-len",

--- a/tests/lmcache/deploy-baseline-dynamo-disag.sh
+++ b/tests/lmcache/deploy-baseline-dynamo-disag.sh
@@ -28,8 +28,8 @@ echo "🔧 Starting dynamo disaggregated serving without LMCache..."

 python -m dynamo.frontend &

-CUDA_VISIBLE_DEVICES=0 python3 -m dynamo.vllm --model $MODEL_URL&
+CUDA_VISIBLE_DEVICES=0 python3 -m dynamo.vllm --model $MODEL_URL --disaggregation-mode decode &

 CUDA_VISIBLE_DEVICES=1 python3 -m dynamo.vllm \
    --model $MODEL_URL \
-    --is-prefill-worker
+    --disaggregation-mode prefill
--- a/tests/lmcache/deploy-lmcache_enabled-dynamo-disag.sh
+++ b/tests/lmcache/deploy-lmcache_enabled-dynamo-disag.sh
@@ -29,7 +29,7 @@ echo "🔧 Starting dynamo disaggregated serving with LMCache enabled..."

 python -m dynamo.frontend &

-CUDA_VISIBLE_DEVICES=0 python3 -m dynamo.vllm --model $MODEL_URL&
+CUDA_VISIBLE_DEVICES=0 python3 -m dynamo.vllm --model $MODEL_URL --disaggregation-mode decode &

 sleep 20

@@ -40,4 +40,4 @@ LMCACHE_MAX_LOCAL_CPU_SIZE=20 \
 CUDA_VISIBLE_DEVICES=1 \
  python3 -m dynamo.vllm \
    --model $MODEL_URL \
-    --is-prefill-worker
+    --disaggregation-mode prefill
--- a/tests/planner/perf_test_configs/disagg_8b_2p2d.yaml
+++ b/tests/planner/perf_test_configs/disagg_8b_2p2d.yaml
@@ -90,7 +90,7 @@ spec:
            - /bin/sh
            - -c
          args:
-            - "python3 -m dynamo.vllm --model nvidia/Llama-3.1-8B-Instruct-FP8 --no-enable-prefix-caching --block-size 128 2>&1 | tee /tmp/vllm.log"
+            - "python3 -m dynamo.vllm --model nvidia/Llama-3.1-8B-Instruct-FP8 --no-enable-prefix-caching --block-size 128 --disaggregation-mode decode 2>&1 | tee /tmp/vllm.log"
    VllmPrefillWorker:
      envFromSecret: hf-token-secret
      componentType: worker
@@ -137,4 +137,4 @@ spec:
            - /bin/sh
            - -c
          args:
-            - "python3 -m dynamo.vllm --model nvidia/Llama-3.1-8B-Instruct-FP8 --is-prefill-worker --no-enable-prefix-caching --block-size 128 2>&1 | tee /tmp/vllm.log"
+            - "python3 -m dynamo.vllm --model nvidia/Llama-3.1-8B-Instruct-FP8 --disaggregation-mode prefill --no-enable-prefix-caching --block-size 128 2>&1 | tee /tmp/vllm.log"
--- a/tests/planner/perf_test_configs/disagg_8b_3p1d.yaml
+++ b/tests/planner/perf_test_configs/disagg_8b_3p1d.yaml
@@ -137,4 +137,4 @@ spec:
            - /bin/sh
            - -c
          args:
-            - "python3 -m dynamo.vllm --model nvidia/Llama-3.1-8B-Instruct-FP8 --is-prefill-worker --no-enable-prefix-caching --block-size 128 2>&1 | tee /tmp/vllm.log"
+            - "python3 -m dynamo.vllm --model nvidia/Llama-3.1-8B-Instruct-FP8 --disaggregation-mode prefill --no-enable-prefix-caching --block-size 128 2>&1 | tee /tmp/vllm.log"
--- a/tests/planner/perf_test_configs/disagg_8b_planner.yaml
+++ b/tests/planner/perf_test_configs/disagg_8b_planner.yaml
@@ -196,7 +196,8 @@ spec:
            - dynamo.vllm
            - --model
            - nvidia/Llama-3.1-8B-Instruct-FP8
-            - --is-prefill-worker
+            - --disaggregation-mode
+            - prefill
            - --no-enable-prefix-caching
            - --block-size
            - "128"
--- a/tests/planner/perf_test_configs/disagg_8b_tp2.yaml
+++ b/tests/planner/perf_test_configs/disagg_8b_tp2.yaml
@@ -90,7 +90,7 @@ spec:
            - /bin/sh
            - -c
          args:
-            - "python3 -m dynamo.vllm --model nvidia/Llama-3.1-8B-Instruct-FP8 --no-enable-prefix-caching --block-size 128 --tensor-parallel-size 2 2>&1 | tee /tmp/vllm.log"
+            - "python3 -m dynamo.vllm --model nvidia/Llama-3.1-8B-Instruct-FP8 --no-enable-prefix-caching --block-size 128 --tensor-parallel-size 2 --disaggregation-mode decode 2>&1 | tee /tmp/vllm.log"
    VllmPrefillWorker:
      envFromSecret: hf-token-secret
      componentType: worker
@@ -137,4 +137,4 @@ spec:
            - /bin/sh
            - -c
          args:
-            - "python3 -m dynamo.vllm --model nvidia/Llama-3.1-8B-Instruct-FP8 --is-prefill-worker --no-enable-prefix-caching --block-size 128 --tensor-parallel-size 2 2>&1 | tee /tmp/vllm.log"
+            - "python3 -m dynamo.vllm --model nvidia/Llama-3.1-8B-Instruct-FP8 --disaggregation-mode prefill --no-enable-prefix-caching --block-size 128 --tensor-parallel-size 2 2>&1 | tee /tmp/vllm.log"
--- a/tests/planner/profiling_results/H200_TP1P_TP1D/disagg.yaml
+++ b/tests/planner/profiling_results/H200_TP1P_TP1D/disagg.yaml
@@ -137,4 +137,4 @@ spec:
            - /bin/sh
            - -c
          args:
-            - "python3 -m dynamo.vllm --model nvidia/Llama-3.1-8B-Instruct-FP8  --is-prefill-worker 2>&1 | tee /tmp/vllm.log"
+            - "python3 -m dynamo.vllm --model nvidia/Llama-3.1-8B-Instruct-FP8  --disaggregation-mode prefill 2>&1 | tee /tmp/vllm.log"
--- a/tests/planner/scaling/disagg_planner_load.yaml
+++ b/tests/planner/scaling/disagg_planner_load.yaml
@@ -77,4 +77,5 @@ spec:
            - dynamo.vllm
            - --model
            - nvidia/Llama-3.1-8B-Instruct-FP8
-            - --is-prefill-worker
+            - --disaggregation-mode
+            - prefill
--- a/tests/planner/scaling/disagg_planner_throughput.yaml
+++ b/tests/planner/scaling/disagg_planner_throughput.yaml
@@ -49,6 +49,8 @@ spec:
            - dynamo.vllm
            - --model
            - nvidia/Llama-3.1-8B-Instruct-FP8
+            - --disaggregation-mode
+            - decode
    VllmPrefillWorker:
      envFromSecret: hf-token-secret
      componentType: worker
@@ -68,4 +70,5 @@ spec:
            - dynamo.vllm
            - --model
            - nvidia/Llama-3.1-8B-Instruct-FP8
-            - --is-prefill-worker
+            - --disaggregation-mode
+            - prefill
--- a/tests/router/test_router_e2e_with_mockers.py
+++ b/tests/router/test_router_e2e_with_mockers.py
@@ -125,9 +125,9 @@ def _build_mocker_command(

    # Add worker type flag for disaggregated mode
    if worker_type == "prefill":
-        command.append("--is-prefill-worker")
+        command.extend(["--disaggregation-mode", "prefill"])
    elif worker_type == "decode":
-        command.append("--is-decode-worker")
+        command.extend(["--disaggregation-mode", "decode"])

    # Add individual CLI arguments from mocker_args
    if "speedup_ratio" in mocker_args: