[Model Runner V2] Fix inputs_embeds=None bug for MM models (#35917)

Signed-off-by: Woosuk Kwon <woosuk@inferact.ai>

[Model Runner V2] Fix inputs_embeds=None bug for MM models (#35917)
Signed-off-by: Woosuk Kwon <woosuk@inferact.ai>
467886a0 · Woosuk Kwon · GitHub · a9b8b13e · 467886a0
Unverified Commit 467886a0 authored Mar 03, 2026 by Woosuk Kwon Committed by GitHub Mar 03, 2026
Show whitespace changes
Inline Side-by-side

Showing with 3 additions and 1 deletion

vllm/v1/worker/gpu/model_runner.py vllm/v1/worker/gpu/model_runner.py +3 -1

No files found.
--- a/vllm/v1/worker/gpu/model_runner.py
+++ b/vllm/v1/worker/gpu/model_runner.py
@@ -907,9 +907,11 @@ class GPUModelRunner(LoRAModelRunnerMixin):
            )

        inputs_embeds = None
-        if self.supports_mm_inputs and self.is_first_pp_rank and not dummy_run:
+        if self.supports_mm_inputs and self.is_first_pp_rank:
            # Run MM encoder (if needed) and get multimodal embeddings.
            # Only first PP rank prepares multimodal embeddings.
+            # NOTE(woosuk): We must call get_mm_embeddings even during dummy runs
+            # to obtain inputs_embeds, because the compiled model expects this input.
            inputs_embeds = self.model_state.get_mm_embeddings(
                scheduler_output.scheduled_encoder_inputs,
                input_batch,