fix: fix gpu resource spec in llm deployments (#1812)

c183aa31 · Biswa Panda · GitHub · 24bede9b · c183aa31 · c183aa31
Unverified Commit c183aa31 authored Jul 08, 2025 by Biswa Panda Committed by GitHub Jul 08, 2025
10 changed files
--- a/examples/llm/deploy/agg.yaml
+++ b/examples/llm/deploy/agg.yaml
@@ -79,11 +79,11 @@ spec:
        requests:
          cpu: "10"
          memory: "20Gi"
-          nvidia.com/gpu: "1"
+          gpu: "1"
        limits:
          cpu: "10"
          memory: "20Gi"
-          nvidia.com/gpu: "1"
+          gpu: "1"
      extraPodSpec:
        mainContainer:
          image: nvcr.io/nvidia/ai-dynamo/vllm-runtime:latest

--- a/examples/llm/deploy/agg_router.yaml
+++ b/examples/llm/deploy/agg_router.yaml
@@ -104,11 +104,11 @@ spec:
        requests:
          cpu: "10"
          memory: "20Gi"
-          nvidia.com/gpu: "1"
+          gpu: "1"
        limits:
          cpu: "10"
          memory: "20Gi"
-          nvidia.com/gpu: "1"
+          gpu: "1"
      extraPodSpec:
        mainContainer:
          image: nvcr.io/nvidia/ai-dynamo/vllm-runtime:latest

--- a/examples/llm/deploy/disagg.yaml
+++ b/examples/llm/deploy/disagg.yaml
@@ -79,11 +79,11 @@ spec:
        requests:
          cpu: "10"
          memory: "20Gi"
-          nvidia.com/gpu: "1"
+          gpu: "1"
        limits:
          cpu: "10"
          memory: "20Gi"
-          nvidia.com/gpu: "1"
+          gpu: "1"
      extraPodSpec:
        mainContainer:
          image: nvcr.io/nvidia/ai-dynamo/vllm-runtime:latest
@@ -106,11 +106,11 @@ spec:
        requests:
          cpu: "10"
          memory: "20Gi"
-          nvidia.com/gpu: "1"
+          gpu: "1"
        limits:
          cpu: "10"
          memory: "20Gi"
-          nvidia.com/gpu: "1"
+          gpu: "1"
      extraPodSpec:
        mainContainer:
          image: nvcr.io/nvidia/ai-dynamo/vllm-runtime:latest

--- a/examples/llm/deploy/disagg_router.yaml
+++ b/examples/llm/deploy/disagg_router.yaml
@@ -104,11 +104,11 @@ spec:
        requests:
          cpu: "10"
          memory: "20Gi"
-          nvidia.com/gpu: "1"
+          gpu: "1"
        limits:
          cpu: "10"
          memory: "20Gi"
-          nvidia.com/gpu: "1"
+          gpu: "1"
      extraPodSpec:
        mainContainer:
          image: nvcr.io/nvidia/ai-dynamo/vllm-runtime:latest
@@ -131,11 +131,11 @@ spec:
        requests:
          cpu: "10"
          memory: "20Gi"
-          nvidia.com/gpu: "1"
+          gpu: "1"
        limits:
          cpu: "10"
          memory: "20Gi"
-          nvidia.com/gpu: "1"
+          gpu: "1"
      extraPodSpec:
        mainContainer:
          image: nvcr.io/nvidia/ai-dynamo/vllm-runtime:latest

--- a/examples/vllm_v0/deploy/agg.yaml
+++ b/examples/vllm_v0/deploy/agg.yaml
@@ -54,11 +54,11 @@ spec:
        requests:
          cpu: "10"
          memory: "20Gi"
-          nvidia.com/gpu: "1"
+          gpu: "1"
        limits:
          cpu: "10"
          memory: "20Gi"
-          nvidia.com/gpu: "1"
+          gpu: "1"
      extraPodSpec:
        mainContainer:
          image: nvcr.io/nvidia/ai-dynamo/vllm-runtime:latest

--- a/examples/vllm_v0/deploy/disagg.yaml
+++ b/examples/vllm_v0/deploy/disagg.yaml
@@ -54,11 +54,11 @@ spec:
        requests:
          cpu: "10"
          memory: "20Gi"
-          nvidia.com/gpu: "1"
+          gpu: "1"
        limits:
          cpu: "10"
          memory: "20Gi"
-          nvidia.com/gpu: "1"
+          gpu: "1"
      extraPodSpec:
        mainContainer:
          image: nvcr.io/nvidia/ai-dynamo/vllm-runtime:latest
@@ -81,11 +81,11 @@ spec:
        requests:
          cpu: "10"
          memory: "20Gi"
-          nvidia.com/gpu: "1"
+          gpu: "1"
        limits:
          cpu: "10"
          memory: "20Gi"
-          nvidia.com/gpu: "1"
+          gpu: "1"
      extraPodSpec:
        mainContainer:
          image: nvcr.io/nvidia/ai-dynamo/vllm-runtime:latest

--- a/examples/vllm_v0/deploy/disagg_planner.yaml
+++ b/examples/vllm_v0/deploy/disagg_planner.yaml
@@ -55,11 +55,11 @@ spec:
        requests:
          cpu: "20"
          memory: "40Gi"
-          nvidia.com/gpu: "2"
+          gpu: "2"
        limits:
          cpu: "20"
          memory: "40Gi"
-          nvidia.com/gpu: "2"
+          gpu: "2"
      extraPodSpec:
        mainContainer:
          image: nvcr.io/nvidia/ai-dynamo/vllm-runtime:latest
@@ -83,11 +83,11 @@ spec:
        requests:
          cpu: "20"
          memory: "40Gi"
-          nvidia.com/gpu: "2"
+          gpu: "2"
        limits:
          cpu: "20"
          memory: "40Gi"
-          nvidia.com/gpu: "2"
+          gpu: "2"
      extraPodSpec:
        mainContainer:
          image: nvcr.io/nvidia/ai-dynamo/vllm-runtime:latest

--- a/examples/vllm_v1/deploy/agg.yaml
+++ b/examples/vllm_v1/deploy/agg.yaml
@@ -79,11 +79,11 @@ spec:
        requests:
          cpu: "10"
          memory: "20Gi"
-          nvidia.com/gpu: "1"
+          gpu: "1"
        limits:
          cpu: "10"
          memory: "20Gi"
-          nvidia.com/gpu: "1"
+          gpu: "1"
      extraPodSpec:
        mainContainer:
          image: nvcr.io/nvidia/ai-dynamo/vllm-runtime:latest

--- a/examples/vllm_v1/deploy/disagg.yaml
+++ b/examples/vllm_v1/deploy/disagg.yaml
@@ -79,11 +79,11 @@ spec:
        requests:
          cpu: "10"
          memory: "20Gi"
-          nvidia.com/gpu: "1"
+          gpu: "1"
        limits:
          cpu: "10"
          memory: "20Gi"
-          nvidia.com/gpu: "1"
+          gpu: "1"
      extraPodSpec:
        mainContainer:
          image: nvcr.io/nvidia/ai-dynamo/vllm-runtime:latest
@@ -106,11 +106,11 @@ spec:
        requests:
          cpu: "10"
          memory: "20Gi"
-          nvidia.com/gpu: "1"
+          gpu: "1"
        limits:
          cpu: "10"
          memory: "20Gi"
-          nvidia.com/gpu: "1"
+          gpu: "1"
      extraPodSpec:
        mainContainer:
          image: nvcr.io/nvidia/ai-dynamo/vllm-runtime:latest

--- a/examples/vllm_v1/deploy/disagg_planner.yaml
+++ b/examples/vllm_v1/deploy/disagg_planner.yaml
@@ -81,11 +81,11 @@ spec:
        requests:
          cpu: "20"
          memory: "40Gi"
-          nvidia.com/gpu: "2"
+          gpu: "2"
        limits:
          cpu: "20"
          memory: "40Gi"
-          nvidia.com/gpu: "2"
+          gpu: "2"
      extraPodSpec:
        mainContainer:
          image: nvcr.io/nvidia/ai-dynamo/vllm-runtime:latest
@@ -109,11 +109,11 @@ spec:
        requests:
          cpu: "20"
          memory: "40Gi"
-          nvidia.com/gpu: "2"
+          gpu: "2"
        limits:
          cpu: "20"
          memory: "40Gi"
-          nvidia.com/gpu: "2"
+          gpu: "2"
      extraPodSpec:
        mainContainer:
          image: nvcr.io/nvidia/ai-dynamo/vllm-runtime:latest