docs: add vLLM KVBM 2P2D example due to a special ENV VAR to note (#3526)

Signed-off-by: Ziqi Fan <ziqif@nvidia.com>

docs: add vLLM KVBM 2P2D example due to a special ENV VAR to note (#3526)
Signed-off-by: Ziqi Fan <ziqif@nvidia.com>
44012a24 · Ziqi Fan · GitHub · 5f7c1f7e · 44012a24 · 44012a24
Unverified Commit 44012a24 authored Oct 09, 2025 by Ziqi Fan Committed by GitHub Oct 09, 2025
Showing with 41 additions and 1 deletion

components/backends/vllm/launch/disagg_kvbm_2p2d.sh components/backends/vllm/launch/disagg_kvbm_2p2d.sh +34 -0

docs/guides/run_kvbm_in_vllm.md docs/guides/run_kvbm_in_vllm.md +7 -1

No files found.
--- a/components/backends/vllm/launch/disagg_kvbm_2p2d.sh
+++ b/components/backends/vllm/launch/disagg_kvbm_2p2d.sh
+#!/bin/bash
+# SPDX-FileCopyrightText: Copyright (c) 2025 NVIDIA CORPORATION & AFFILIATES. All rights reserved.
+# SPDX-License-Identifier: Apache-2.0
+set -e
+trap 'echo Cleaning up...; kill 0' EXIT
+# run ingress with KV router
+python -m dynamo.frontend --router-mode kv --http-port=8000 &
+# run decode workers on GPU 0 and 1, without enabling KVBM
+# NOTE: remove --enforce-eager for production use
+CUDA_VISIBLE_DEVICES=0 python3 -m dynamo.vllm --model Qwen/Qwen3-0.6B --connector nixl --enforce-eager &
+CUDA_VISIBLE_DEVICES=1 python3 -m dynamo.vllm --model Qwen/Qwen3-0.6B --connector nixl --enforce-eager &
+# run prefill workers on GPU 2 and 3 with KVBM enabled using 20GB of CPU cache
+# NOTE: use different barrier id prefixes for each prefill worker to avoid conflicts
+# NOTE: remove --enforce-eager for production use
+DYN_KVBM_BARRIER_ID_PREFIX=kvbm_0 \
+DYN_KVBM_CPU_CACHE_GB=20 \
+CUDA_VISIBLE_DEVICES=2 \
+  python3 -m dynamo.vllm \
+    --model Qwen/Qwen3-0.6B \
+    --is-prefill-worker \
+    --connector kvbm nixl \
+    --enforce-eager &
+DYN_KVBM_BARRIER_ID_PREFIX=kvbm_1 \
+DYN_KVBM_CPU_CACHE_GB=20 \
+CUDA_VISIBLE_DEVICES=3 \
+  python3 -m dynamo.vllm \
+    --model Qwen/Qwen3-0.6B \
+    --is-prefill-worker \
+    --connector kvbm nixl \
+    --enforce-eager
--- a/docs/guides/run_kvbm_in_vllm.md
+++ b/docs/guides/run_kvbm_in_vllm.md
@@ -43,11 +43,17 @@ cd $DYNAMO_HOME/components/backends/vllm
 ./launch/agg_kvbm.sh
 ```
-### Disaggregated Serving with KVBM (1P1D)
+### Disaggregated Serving with KVBM
 ```bash
+# 1P1D - one prefill worker and one decode worker
 # NOTE: need at least 2 GPUs
 cd $DYNAMO_HOME/components/backends/vllm
 ./launch/disagg_kvbm.sh
+# 2P2D - two prefill workers and two decode workers
+# NOTE: need at least 4 GPUs
+cd $DYNAMO_HOME/components/backends/vllm
+./launch/disagg_kvbm_2p2d.sh
 ```
 > [!NOTE]
 > To tune the size of CPU or disk cache, set `DYN_KVBM_CPU_CACHE_GB` and `DYN_KVBM_DISK_CACHE_GB` accordingly. We only set `DYN_KVBM_CPU_CACHE_GB=20` in both scripts above.