[Misc] Make MM embedding merge interface explicit in model runner (#21147)

Signed-off-by: Roger Wang <hey@rogerw.me> Co-authored-by: gemini-code-assist[bot] <176961590+gemini-code-assist[bot]@users.noreply.github.com>

[Misc] Make MM embedding merge interface explicit in model runner (#21147)
Signed-off-by: Roger Wang <hey@rogerw.me> Co-authored-by: gemini-code-assist[bot] <176961590+gemini-code-assist[bot]@users.noreply.github.com>
ba2dfbb0 · Roger Wang · GitHub · 1bf65138 · ba2dfbb0 · ba2dfbb0
Unverified Commit ba2dfbb0 authored Jul 18, 2025 by Roger Wang Committed by GitHub Jul 18, 2025
Show whitespace changes
Inline Side-by-side

Showing with 8 additions and 10 deletions

vllm/v1/worker/gpu_model_runner.py vllm/v1/worker/gpu_model_runner.py +4 -5

vllm/v1/worker/tpu_model_runner.py vllm/v1/worker/tpu_model_runner.py +4 -5

No files found.
--- a/vllm/v1/worker/gpu_model_runner.py
+++ b/vllm/v1/worker/gpu_model_runner.py
@@ -1328,11 +1328,10 @@ class GPUModelRunner(LoRAModelRunnerMixin):
            # embeddings), we always use embeddings (rather than token ids)
            # as input to the multimodal model, even when the input is text.
            input_ids = self.input_ids[:num_scheduled_tokens]
-            if mm_embeds:
            inputs_embeds = self.model.get_input_embeddings(
-                    input_ids, mm_embeds)
-            else:
-                inputs_embeds = self.model.get_input_embeddings(input_ids)
+                input_ids=input_ids,
+                multimodal_embeddings=mm_embeds or None,
+            )
            # TODO(woosuk): Avoid the copy. Optimize.
            self.inputs_embeds[:num_scheduled_tokens].copy_(inputs_embeds)
            inputs_embeds = self.inputs_embeds[:num_input_tokens]

--- a/vllm/v1/worker/tpu_model_runner.py
+++ b/vllm/v1/worker/tpu_model_runner.py
@@ -937,11 +937,10 @@ class TPUModelRunner(LoRAModelRunnerMixin):
            # NOTE(woosuk): To unify token ids and soft tokens (vision
            # embeddings), we always use embeddings (rather than token ids)
            # as input to the multimodal model, even when the input is text.
-            if mm_embeds:
            inputs_embeds = self.model.get_input_embeddings(
-                    input_ids, mm_embeds)
-            else:
-                inputs_embeds = self.model.get_input_embeddings(input_ids)
+                input_ids=input_ids,
+                multimodal_embeddings=mm_embeds,
+            )
            return None, inputs_embeds
        else:
            # For text-only models, we use token ids as input.