[fix] initialize vLLM engine before runtime (#238)

Co-authored-by: hongkuanz <hongkuanz@nvidia.com>

[fix] initialize vLLM engine before runtime (#238)
Co-authored-by: hongkuanz <hongkuanz@nvidia.com>
ccd153af · Alec · GitHub · 32a748e4 · ccd153af
Commit ccd153af authored Feb 21, 2025 by Alec Committed by GitHub Feb 21, 2025
Show whitespace changes
Inline Side-by-side

Showing with 4 additions and 3 deletions

examples/python_rs/llm/vllm/kv_router/worker.py examples/python_rs/llm/vllm/kv_router/worker.py +4 -3

No files found.
--- a/examples/python_rs/llm/vllm/kv_router/worker.py
+++ b/examples/python_rs/llm/vllm/kv_router/worker.py
@@ -41,9 +41,9 @@ class VllmEngine(BaseVllmEngine):

    @triton_endpoint(vLLMGenerateRequest, MyRequestOutput)
    async def generate(self, request) -> AsyncIterator:
-        if self.engine_client is None:
-            await self.initialize()
-        assert self.engine_client is not None, "engine_client was not initialized"
+        assert (
+            self.engine_client is not None
+        ), "engine_client was not initialized, must call initialize() first"

        sampling_params = request.sampling_params
        # rust HTTP requires Delta streaming
@@ -83,6 +83,7 @@ async def worker(runtime: DistributedRuntime, engine_args: AsyncEngineArgs):
    vllm_logger.info(f"Generate endpoint ID: {VLLM_WORKER_ID}")

    vllm_engine = VllmEngine(engine_args)
+    await vllm_engine.initialize()

    await worker_endpoint.serve_endpoint(vllm_engine.generate)