test: Add deepep test for vllm (#2534)

536280fc · Kris Hung · GitHub · 9a021885 · 536280fc · 536280fc
Unverified Commit 536280fc authored Aug 19, 2025 by Kris Hung Committed by GitHub Aug 19, 2025
Showing with 33 additions and 1 deletion

components/backends/vllm/launch/dsr1_dep.sh components/backends/vllm/launch/dsr1_dep.sh +8 -1

pyproject.toml pyproject.toml +1 -0

tests/serve/test_vllm.py tests/serve/test_vllm.py +24 -0

No files found.
--- a/components/backends/vllm/launch/dsr1_dep.sh
+++ b/components/backends/vllm/launch/dsr1_dep.sh
@@ -10,6 +10,7 @@ NODE_RANK=""
 GPUS_PER_NODE=""
 MASTER_ADDR="localhost"
 LOG_DIR="./logs"
+MODEL="deepseek-ai/DeepSeek-R1"
 # Parse command line arguments
 while [[ $# -gt 0 ]]; do
@@ -34,6 +35,10 @@ while [[ $# -gt 0 ]]; do
            LOG_DIR="$2"
            shift 2
            ;;
+        --model)
+            MODEL="$2"
+            shift 2
+            ;;
        -h|--help)
            echo "Usage: $0 [OPTIONS]"
            echo "Options:"
@@ -42,6 +47,7 @@ while [[ $# -gt 0 ]]; do
            echo "  --gpus-per-node L     Number of GPUs per node (required, int)"
            echo "  --master-addr ADDR    Master node address (default: localhost)"
            echo "  --log-dir DIR         Directory for log files (default: ./logs)"
+            echo "  --model MODEL    Model name to use (default: deepseek-ai/DeepSeek-R1)"
            echo "  -h, --help           Show this help message"
            exit 0
            ;;
@@ -71,6 +77,7 @@ echo "  GPUs per node: $GPUS_PER_NODE"
 echo "  Data parallel size: $DATA_PARALLEL_SIZE"
 echo "  Master address: $MASTER_ADDR"
 echo "  Log directory: $LOG_DIR"
+echo "  Model name: $MODEL"
 trap 'echo Cleaning up...; kill 0' EXIT
@@ -90,7 +97,7 @@ for ((i=0; i<GPUS_PER_NODE; i++)); do
        VLLM_USE_DEEP_GEMM=1 \
        VLLM_RANDOMIZE_DP_DUMMY_INPUTS=1 \
        python3 -m dynamo.vllm \
-        --model deepseek-ai/DeepSeek-R1 \
+        --model $MODEL \
        --data_parallel_size $DATA_PARALLEL_SIZE \
        --data-parallel-rank $dp_rank \
        --enable-expert-parallel \

--- a/pyproject.toml
+++ b/pyproject.toml
@@ -175,6 +175,7 @@ markers = [
    "trtllm_marker: marks tests as requiring trtllm",
    "sglang: marks tests as requiring sglang",
    "slow: marks tests as known to be slow",
+    "h100: marks tests to run on H100",
    "kvbm: marks tests for KV behavior and model determinism"
 ]

--- a/tests/serve/test_vllm.py
+++ b/tests/serve/test_vllm.py
@@ -260,6 +260,30 @@ vllm_configs = {
        model="Qwen/Qwen3-0.6B",
        delayed_start=45,
    ),
+    "deepep": VLLMConfig(
+        name="deepep",
+        directory="/workspace/components/backends/vllm",
+        script_name="dsr1_dep.sh",
+        marks=[pytest.mark.gpu_2, pytest.mark.vllm, pytest.mark.h100],
+        endpoints=["v1/chat/completions", "v1/completions"],
+        response_handlers=[
+            chat_completions_response_handler,
+            completions_response_handler,
+        ],
+        model="deepseek-ai/DeepSeek-V2-Lite",
+        delayed_start=45,
+        args=[
+            "--model",
+            "deepseek-ai/DeepSeek-V2-Lite",
+            "--num-nodes",
+            "1",
+            "--node-rank",
+            "0",
+            "--gpus-per-node",
+            "2",
+        ],
+        timeout=300,
+    ),
    "multimodal_agg": VLLMConfig(
        name="multimodal_agg",
        directory="/workspace/examples/multimodal",