fix: Move register_llm_block down (#2316)

8291172f · Chi · GitHub · 12fe3551 · 8291172f
Unverified Commit 8291172f authored Aug 05, 2025 by Chi Committed by GitHub Aug 05, 2025
Hide whitespace changes
Inline Side-by-side

Showing with 10 additions and 10 deletions

components/backends/vllm/src/dynamo/vllm/main.py components/backends/vllm/src/dynamo/vllm/main.py +10 -10

No files found.
--- a/components/backends/vllm/src/dynamo/vllm/main.py
+++ b/components/backends/vllm/src/dynamo/vllm/main.py
@@ -145,16 +145,6 @@ async def init(runtime: DistributedRuntime, config: Config):
        .client()
    )

-    if not config.engine_args.data_parallel_rank:  # if rank is 0 or None then register
-        await register_llm(
-            ModelType.Backend,
-            generate_endpoint,
-            config.model,
-            config.served_model_name,
-            kv_cache_block_size=config.engine_args.block_size,
-            migration_limit=config.migration_limit,
-        )
-
    factory = StatLoggerFactory(component, config.engine_args.data_parallel_rank or 0)
    engine_client, vllm_config, default_sampling_params = setup_vllm_engine(
        config, factory
@@ -190,6 +180,16 @@ async def init(runtime: DistributedRuntime, config: Config):

        handler.kv_publisher = kv_publisher

+    if not config.engine_args.data_parallel_rank:  # if rank is 0 or None then register
+        await register_llm(
+            ModelType.Backend,
+            generate_endpoint,
+            config.model,
+            config.served_model_name,
+            kv_cache_block_size=config.engine_args.block_size,
+            migration_limit=config.migration_limit,
+        )
+
    try:
        await asyncio.gather(
            # for decode, we want to transfer the in-flight requests to other decode engines,