Convert online APIs to use Renderer (#34084)

Signed-off-by: Reagan Lee <“reaganjlee@gmail.com”> Co-authored-by: Reagan Lee <“reaganjlee@gmail.com”>

Convert online APIs to use Renderer (#34084)
Signed-off-by: Reagan Lee <“reaganjlee@gmail.com”> Co-authored-by: Reagan Lee <“reaganjlee@gmail.com”>
fdd6f2ad · Reagan Lee · GitHub · 33bcd3dc · fdd6f2ad · fdd6f2ad
Unverified Commit fdd6f2ad authored Feb 10, 2026 by Reagan Lee Committed by GitHub Feb 10, 2026
Showing with 33 additions and 9 deletions

vllm/entrypoints/openai/speech_to_text/speech_to_text.py vllm/entrypoints/openai/speech_to_text/speech_to_text.py +21 -5

vllm/entrypoints/serve/disagg/serving.py vllm/entrypoints/serve/disagg/serving.py +12 -4

No files found.
--- a/vllm/entrypoints/openai/speech_to_text/speech_to_text.py
+++ b/vllm/entrypoints/openai/speech_to_text/speech_to_text.py
@@ -471,15 +471,31 @@ class OpenAISpeechToText(OpenAIServing):
                lora_request=lora_request,
            )
-            list_result_generator = [
+            trace_headers = (
-                self.engine_client.generate(
+                None
+                if raw_request is None
+                else await self._get_trace_headers(raw_request.headers)
+            )
+            list_result_generator = []
+            for i, prompt in enumerate(prompts):
+                request_id_item = f"{request_id}_{i}"
+                engine_request = self.input_processor.process_inputs(
+                    request_id_item,
                    prompt,
                    sampling_params,
-                    f"{request_id}_{i}",
                    lora_request=lora_request,
+                    trace_headers=trace_headers,
+                    priority=0,
+                )
+                list_result_generator.append(
+                    self.engine_client.generate(
+                        engine_request,
+                        sampling_params,
+                        request_id_item,
+                        lora_request=lora_request,
+                    )
                )
-                for i, prompt in enumerate(prompts)
-            ]
        except ValueError as e:
            return self.create_error_response(e)

--- a/vllm/entrypoints/serve/disagg/serving.py
+++ b/vllm/entrypoints/serve/disagg/serving.py
@@ -99,8 +99,6 @@ class ServingTokens(OpenAIServing):
        if raw_request:
            raw_request.state.request_metadata = request_metadata
-        # TODO(NickLucche): Change to EngineCoreRequest once Renderer work is
-        # completed
        engine_prompts = await self._preprocess_completion(
            request,
            prompt_input=request.token_ids,
@@ -132,16 +130,26 @@ class ServingTokens(OpenAIServing):
            tok_params = request.build_tok_params(self.model_config)
            tokenization_kwargs = tok_params.get_encode_kwargs()
-            result_generator = self.engine_client.generate(
+            engine_request = self.input_processor.process_inputs(
+                request_id,
                engine_prompt,
                sampling_params,
-                request_id,
                lora_request=lora_request,
                tokenization_kwargs=tokenization_kwargs,
                trace_headers=trace_headers,
                priority=request.priority,
            )
+            result_generator = self.engine_client.generate(
+                engine_request,
+                sampling_params,
+                request_id,
+                lora_request=lora_request,
+                trace_headers=trace_headers,
+                priority=request.priority,
+                tokenization_kwargs=tokenization_kwargs,
+            )
        except ValueError as e:
            return self.create_error_response(str(e))