fix: mm_item keys for SGLang API (#5981)

Signed-off-by: Krishnan Prashanth <kprashanth@nvidia.com>

fix: mm_item keys for SGLang API (#5981)
Signed-off-by: Krishnan Prashanth <kprashanth@nvidia.com>
cfba042e · KrishnanPrash · GitHub · 4c200e79 · cfba042e
Unverified Commit cfba042e authored Feb 05, 2026 by KrishnanPrash Committed by GitHub Feb 05, 2026
Show whitespace changes
Inline Side-by-side

Showing with 19 additions and 7 deletions

components/src/dynamo/sglang/request_handlers/multimodal/worker_handler.py ...namo/sglang/request_handlers/multimodal/worker_handler.py +19 -7

No files found.
--- a/components/src/dynamo/sglang/request_handlers/multimodal/worker_handler.py
+++ b/components/src/dynamo/sglang/request_handlers/multimodal/worker_handler.py
@@ -114,16 +114,28 @@ class EmbeddingsProcessor:
    def create_multimodal_item(
        embeddings: torch.Tensor, request: SglangMultimodalRequest
    ) -> dict:
-        """Create multimodal item for SGLang generation"""
+        """
+        Create multimodal item for SGLang generation.
+        Uses format="precomputed_embedding" since Dynamo's Encoder has already
+        run the vision encoder. SGLang expects 2D embeddings (num_patches, hidden_dim).
+        """
+        precomputed = embeddings.to(MultimodalConfig.EMBEDDINGS_DTYPE)
+        # SGLang expects 2D tensor for precomputed_embedding format
+        # Encoder outputs 3D (1, num_patches, hidden_dim) for internal consistency
+        # Squeeze batch dimension at SGLang boundary
+        if precomputed.dim() == 3 and precomputed.shape[0] == 1:
+            precomputed = precomputed.squeeze(0)
-        precomputed_embeddings = embeddings.to(MultimodalConfig.EMBEDDINGS_DTYPE)
        grid_thw_tensor = torch.tensor(request.image_grid_thw)
-        mm_item = dict(
+        mm_item = {
-            modality="IMAGE",
+            "format": "precomputed_embedding",
-            image_grid_thw=grid_thw_tensor,
+            "feature": precomputed,
-            precomputed_embeddings=precomputed_embeddings,
+            "image_grid_thw": grid_thw_tensor,
-        )
+            "modality": "IMAGE",
+        }
        return mm_item