fix: use hf id in dsr1 recipe to support DGDR (#4481)

Signed-off-by: hongkuanz <hongkuanz@nvidia.com>

fix: use hf id in dsr1 recipe to support DGDR (#4481)
Signed-off-by: hongkuanz <hongkuanz@nvidia.com>
f3f764eb · Hongkuan Zhou · GitHub · 473cb57e · f3f764eb · f3f764eb
Unverified Commit f3f764eb authored Nov 19, 2025 by Hongkuan Zhou Committed by GitHub Nov 19, 2025
Showing with 22 additions and 60 deletions

recipes/deepseek-r1/sglang/disagg-16gpu/deploy.yaml recipes/deepseek-r1/sglang/disagg-16gpu/deploy.yaml +10 -28

recipes/deepseek-r1/sglang/disagg-8gpu/deploy.yaml recipes/deepseek-r1/sglang/disagg-8gpu/deploy.yaml +12 -32

No files found.
--- a/recipes/deepseek-r1/sglang/disagg-16gpu/deploy.yaml
+++ b/recipes/deepseek-r1/sglang/disagg-16gpu/deploy.yaml
@@ -6,8 +6,11 @@ kind: DynamoGraphDeployment
 metadata:
  name: sgl-dsr1-16gpu
 spec:
+  envs:
+    - name: HF_HOME
+      value: /opt/model
  pvcs:
-    - name: model-cache-pvc
+    - name: model-cache
      create: false
  services:
    Frontend:
@@ -16,13 +19,6 @@ spec:
      replicas: 1
      extraPodSpec:
        mainContainer:
-          startupProbe:
-            httpGet:
-              path: /health
-              port: 8000
-            periodSeconds: 10
-            timeoutSeconds: 1800
-            failureThreshold: 60
          image: my-registry/sglang-runtime:my-tag
    decode:
      dynamoNamespace: sgl-dsr1-16gpu
@@ -34,19 +30,12 @@ spec:
        limits:
          gpu: "8"
      volumeMounts:
-        - name: model-cache-pvc
+        - name: model-cache
-          mountPoint: /model-cache
+          mountPoint: /opt/model
      sharedMemory:
        size: 80Gi
      extraPodSpec:
        mainContainer:
-          startupProbe:
-            httpGet:
-              path: /health
-              port: 9090
-            periodSeconds: 10
-            timeoutSeconds: 10
-            failureThreshold: 600
          image: my-registry/sglang-runtime:my-tag
          workingDir: /sgl-workspace/dynamo
          command:
@@ -55,7 +44,7 @@ spec:
            - dynamo.sglang
          args:
            - --model-path
-            - /model-cache/deepseek-r1
+            - deepseek-ai/DeepSeek-R1
            - --served-model-name
            - deepseek-ai/DeepSeek-R1
            - --tp
@@ -86,19 +75,12 @@ spec:
        limits:
          gpu: "8"
      volumeMounts:
-        - name: model-cache-pvc
+        - name: model-cache
-          mountPoint: /model-cache
+          mountPoint: /opt/model
      sharedMemory:
        size: 80Gi
      extraPodSpec:
        mainContainer:
-          startupProbe:
-            httpGet:
-              path: /health
-              port: 9090
-            periodSeconds: 10
-            timeoutSeconds: 10
-            failureThreshold: 600
          image: my-registry/sglang-runtime:my-tag
          workingDir: /sgl-workspace/dynamo
          command:
@@ -107,7 +89,7 @@ spec:
            - dynamo.sglang
          args:
            - --model-path
-            - /model-cache/deepseek-r1
+            - deepseek-ai/DeepSeek-R1
            - --served-model-name
            - deepseek-ai/DeepSeek-R1
            - --tp

--- a/recipes/deepseek-r1/sglang/disagg-8gpu/deploy.yaml
+++ b/recipes/deepseek-r1/sglang/disagg-8gpu/deploy.yaml
@@ -6,8 +6,11 @@ kind: DynamoGraphDeployment
 metadata:
  name: sgl-dsr1-8gpu
 spec:
+  envs:
+    - name: HF_HOME
+      value: /opt/model
  pvcs:
-    - name: model-cache-pvc
+    - name: model-cache
      create: false
  services:
    Frontend:
@@ -16,13 +19,6 @@ spec:
      replicas: 1
      extraPodSpec:
        mainContainer:
-          startupProbe:
-            httpGet:
-              path: /health
-              port: 8000
-            periodSeconds: 10
-            timeoutSeconds: 1800
-            failureThreshold: 60
          image: my-registry/sglang-runtime:my-tag
    decode:
      dynamoNamespace: sgl-dsr1-8gpu
@@ -32,28 +28,21 @@ spec:
        limits:
          gpu: "8"
      volumeMounts:
-        - name: model-cache-pvc
+        - name: model-cache
-          mountPoint: /model-cache
+          mountPoint: /opt/model
      sharedMemory:
        size: 80Gi
      extraPodSpec:
        mainContainer:
-          startupProbe:
-            httpGet:
-              path: /health
-              port: 9090
-            periodSeconds: 10
-            timeoutSeconds: 10
-            failureThreshold: 600
          image: my-registry/sglang-runtime:my-tag
-          workingDir: /sgl-workspace/dynamo
+          workingDir: /workspace
          command:
            - python3
            - -m
            - dynamo.sglang
          args:
            - --model-path
-            - /model-cache/deepseek-r1
+            - deepseek-ai/DeepSeek-R1
            - --served-model-name
            - deepseek-ai/DeepSeek-R1
            - --tp
@@ -64,7 +53,6 @@ spec:
            - --ep-size
            - "8"
            - --trust-remote-code
-            - --skip-tokenizer-init
            - --disaggregation-mode
            - decode
            - --disaggregation-bootstrap-port
@@ -80,28 +68,21 @@ spec:
        limits:
          gpu: "8"
      volumeMounts:
-        - name: model-cache-pvc
+        - name: model-cache
-          mountPoint: /model-cache
+          mountPoint: /opt/model
      sharedMemory:
        size: 80Gi
      extraPodSpec:
        mainContainer:
-          startupProbe:
-            httpGet:
-              path: /health
-              port: 9090
-            periodSeconds: 10
-            timeoutSeconds: 10
-            failureThreshold: 600
          image: my-registry/sglang-runtime:my-tag
-          workingDir: /sgl-workspace/dynamo
+          workingDir: /workspace
          command:
            - python3
            - -m
            - dynamo.sglang
          args:
            - --model-path
-            - /model-cache/deepseek-r1
+            - deepseek-ai/DeepSeek-R1
            - --served-model-name
            - deepseek-ai/DeepSeek-R1
            - --tp
@@ -109,7 +90,6 @@ spec:
            - --ep-size
            - "8"
            - --trust-remote-code
-            - --skip-tokenizer-init
            - --disaggregation-mode
            - prefill
            - --disaggregation-bootstrap-port