fix: Add model registration to SGLang multimodal workers fixing bug #4486 (#4512)

Signed-off-by: Nancy Agarwal <nancya@nvidia.com> Co-authored-by: Kris Hung <krish@nvidia.com> Co-authored-by: Ryan McCormick <rmccormick@nvidia.com>

fix: Add model registration to SGLang multimodal workers fixing bug #4486 (#4512)
Signed-off-by: Nancy Agarwal <nancya@nvidia.com> Co-authored-by: Kris Hung <krish@nvidia.com> Co-authored-by: Ryan McCormick <rmccormick@nvidia.com>
ad5afb7b · nancya-nv · GitHub · d5f425ab · ad5afb7b
Unverified Commit ad5afb7b authored Dec 09, 2025 by nancya-nv Committed by GitHub Dec 09, 2025
Hide whitespace changes
Inline Side-by-side

Showing with 42 additions and 13 deletions

components/src/dynamo/sglang/main.py components/src/dynamo/sglang/main.py +42 -13

No files found.
--- a/components/src/dynamo/sglang/main.py
+++ b/components/src/dynamo/sglang/main.py
@@ -430,16 +430,24 @@ async def init_multimodal_encode_worker(runtime: DistributedRuntime, config: Con
    await pd_worker_client.wait_for_instances()
-    tasks = [
+    ready_event = asyncio.Event()
-        generate_endpoint.serve_endpoint(
-            handler.generate,
-            graceful_shutdown=True,
-            metrics_labels=[("model", server_args.served_model_name)],
-        )
-    ]
    try:
-        await asyncio.gather(*tasks)
+        await asyncio.gather(
+            generate_endpoint.serve_endpoint(
+                handler.generate,
+                graceful_shutdown=True,
+                metrics_labels=[("model", server_args.served_model_name)],
+            ),
+            register_llm_with_readiness_gate(
+                None,  # encode worker doesn't have engine
+                generate_endpoint,
+                server_args,
+                dynamo_args,
+                input_type=ModelInput.Text,
+                readiness_gate=ready_event,
+            ),
+        )
    except Exception as e:
        logging.error(f"Failed to serve endpoints: {e}")
        raise
@@ -473,11 +481,24 @@ async def init_multimodal_worker(runtime: DistributedRuntime, config: Config):
    await handler.async_init()
+    health_check_payload = SglangHealthCheckPayload(engine).to_dict()
+    ready_event = asyncio.Event()
    try:
-        await generate_endpoint.serve_endpoint(
+        await asyncio.gather(
-            handler.generate,
+            generate_endpoint.serve_endpoint(
-            metrics_labels=[("model", server_args.served_model_name)],
+                handler.generate,
-            graceful_shutdown=True,
+                metrics_labels=[("model", server_args.served_model_name)],
+                graceful_shutdown=True,
+                health_check_payload=health_check_payload,
+            ),
+            register_llm_with_readiness_gate(
+                engine,
+                generate_endpoint,
+                server_args,
+                dynamo_args,
+                readiness_gate=ready_event,
+            ),
        )
    except Exception as e:
        logging.error(f"Failed to serve endpoints: {e}")
@@ -502,6 +523,7 @@ async def init_multimodal_prefill_worker(runtime: DistributedRuntime, config: Co
    await handler.async_init()
    health_check_payload = SglangPrefillHealthCheckPayload(engine).to_dict()
+    ready_event = asyncio.Event()
    try:
        await asyncio.gather(
@@ -510,7 +532,14 @@ async def init_multimodal_prefill_worker(runtime: DistributedRuntime, config: Co
                graceful_shutdown=True,
                metrics_labels=[("model", server_args.served_model_name)],
                health_check_payload=health_check_payload,
-            )
+            ),
+            register_llm_with_readiness_gate(
+                engine,
+                generate_endpoint,
+                server_args,
+                dynamo_args,
+                readiness_gate=ready_event,
+            ),
        )
    except Exception as e:
        logging.error(f"Failed to serve endpoints: {e}")