[V1] Change return type on get_multimodal_embeddings() (#19446)

Signed-off-by: Russell Bryant <rbryant@redhat.com>

[V1] Change return type on get_multimodal_embeddings() (#19446)
Signed-off-by: Russell Bryant <rbryant@redhat.com>
90f9c2eb · Russell Bryant · GitHub · 387bdf0a · 90f9c2eb · 90f9c2eb
Unverified Commit 90f9c2eb authored Jun 16, 2025 by Russell Bryant Committed by GitHub Jun 16, 2025
20 changed files
--- a/vllm/model_executor/models/aria.py
+++ b/vllm/model_executor/models/aria.py
@@ -601,11 +601,11 @@ class AriaForConditionalGeneration(nn.Module, SupportsMultiModal):
    def get_language_model(self) -> torch.nn.Module:
        return self.language_model
-    def get_multimodal_embeddings(
+    def get_multimodal_embeddings(self,
-            self, **kwargs: object) -> Optional[MultiModalEmbeddings]:
+                                  **kwargs: object) -> MultiModalEmbeddings:
        image_input = self._parse_and_validate_image_input(**kwargs)
        if image_input is None:
-            return None
+            return []
        multimodal_embeddings = self._process_image_input(image_input)
        return multimodal_embeddings

--- a/vllm/model_executor/models/aya_vision.py
+++ b/vllm/model_executor/models/aya_vision.py
@@ -406,11 +406,11 @@ class AyaVisionForConditionalGeneration(nn.Module, SupportsMultiModal,
    def get_language_model(self) -> torch.nn.Module:
        return self.language_model
-    def get_multimodal_embeddings(
+    def get_multimodal_embeddings(self,
-            self, **kwargs: object) -> Optional[MultiModalEmbeddings]:
+                                  **kwargs: object) -> MultiModalEmbeddings:
        image_input = self._parse_and_validate_image_input(**kwargs)
        if image_input is None:
-            return None
+            return []
        return self._process_image_input(image_input, **kwargs)

--- a/vllm/model_executor/models/blip2.py
+++ b/vllm/model_executor/models/blip2.py
@@ -627,11 +627,11 @@ class Blip2ForConditionalGeneration(nn.Module, SupportsMultiModal, SupportsPP,
    def get_language_model(self) -> torch.nn.Module:
        return self.language_model
-    def get_multimodal_embeddings(
+    def get_multimodal_embeddings(self,
-            self, **kwargs: object) -> Optional[MultiModalEmbeddings]:
+                                  **kwargs: object) -> MultiModalEmbeddings:
        image_input = self._parse_and_validate_image_input(**kwargs)
        if image_input is None:
-            return None
+            return []
        vision_embeddings = self._process_image_input(image_input)
        return vision_embeddings

--- a/vllm/model_executor/models/chameleon.py
+++ b/vllm/model_executor/models/chameleon.py
@@ -987,11 +987,11 @@ class ChameleonForConditionalGeneration(nn.Module, SupportsMultiModal,
    def get_language_model(self) -> torch.nn.Module:
        return self.model
-    def get_multimodal_embeddings(
+    def get_multimodal_embeddings(self,
-            self, **kwargs: object) -> Optional[MultiModalEmbeddings]:
+                                  **kwargs: object) -> MultiModalEmbeddings:
        image_input = self._parse_and_validate_image_input(**kwargs)
        if image_input is None:
-            return None
+            return []
        assert self.model.vqmodel is not None
        image_tokens = self.model.get_image_tokens(image_input["data"].to(
            self.config.torch_dtype))

--- a/vllm/model_executor/models/deepseek_vl2.py
+++ b/vllm/model_executor/models/deepseek_vl2.py
@@ -586,11 +586,11 @@ class DeepseekVLV2ForCausalLM(nn.Module, SupportsMultiModal, SupportsPP):
    def get_language_model(self) -> torch.nn.Module:
        return self.language_model
-    def get_multimodal_embeddings(
+    def get_multimodal_embeddings(self,
-            self, **kwargs: object) -> Optional[MultiModalEmbeddings]:
+                                  **kwargs: object) -> MultiModalEmbeddings:
        image_input = self._parse_and_validate_image_input(**kwargs)
        if image_input is None:
-            return None
+            return []
        vision_embeddings = self._process_image_input(image_input)
        return vision_embeddings

--- a/vllm/model_executor/models/florence2.py
+++ b/vllm/model_executor/models/florence2.py
@@ -1032,11 +1032,11 @@ class Florence2ForConditionalGeneration(nn.Module, SupportsMultiModal,
    def get_language_model(self) -> torch.nn.Module:
        return self.language_model
-    def get_multimodal_embeddings(
+    def get_multimodal_embeddings(self,
-            self, **kwargs: object) -> Optional[MultiModalEmbeddings]:
+                                  **kwargs: object) -> MultiModalEmbeddings:
        image_input = self._parse_and_validate_image_input(**kwargs)
        if image_input is None:
-            return None
+            return []
        vision_embeddings = self._process_image_input(image_input)
        return vision_embeddings

--- a/vllm/model_executor/models/fuyu.py
+++ b/vllm/model_executor/models/fuyu.py
@@ -324,11 +324,11 @@ class FuyuForCausalLM(nn.Module, SupportsMultiModal, SupportsPP):
    def get_language_model(self) -> torch.nn.Module:
        return self.language_model
-    def get_multimodal_embeddings(
+    def get_multimodal_embeddings(self,
-            self, **kwargs: object) -> Optional[MultiModalEmbeddings]:
+                                  **kwargs: object) -> MultiModalEmbeddings:
        image_input = self._parse_and_validate_image_input(**kwargs)
        if image_input is None:
-            return None
+            return []
        return self._process_image_input(image_input)

--- a/vllm/model_executor/models/gemma3_mm.py
+++ b/vllm/model_executor/models/gemma3_mm.py
@@ -568,11 +568,11 @@ class Gemma3ForConditionalGeneration(nn.Module, SupportsMultiModal, SupportsPP,
    def get_language_model(self) -> torch.nn.Module:
        return self.language_model
-    def get_multimodal_embeddings(
+    def get_multimodal_embeddings(self,
-            self, **kwargs: object) -> Optional[MultiModalEmbeddings]:
+                                  **kwargs: object) -> MultiModalEmbeddings:
        image_input = self._parse_and_validate_image_input(**kwargs)
        if image_input is None:
-            return None
+            return []
        return self._process_image_input(image_input)

--- a/vllm/model_executor/models/glm4v.py
+++ b/vllm/model_executor/models/glm4v.py
@@ -593,11 +593,11 @@ class GLM4VForCausalLM(ChatGLMBaseModel, SupportsLoRA, SupportsPP,
    def get_language_model(self) -> torch.nn.Module:
        return self.transformer
-    def get_multimodal_embeddings(
+    def get_multimodal_embeddings(self,
-            self, **kwargs: object) -> Optional[MultiModalEmbeddings]:
+                                  **kwargs: object) -> MultiModalEmbeddings:
        image_input = self._parse_and_validate_image_input(**kwargs)
        if image_input is None:
-            return None
+            return []
        vision_embeddings = self._process_image_input(image_input)
        return vision_embeddings

--- a/vllm/model_executor/models/granite_speech.py
+++ b/vllm/model_executor/models/granite_speech.py
@@ -706,10 +706,11 @@ class GraniteSpeechForConditionalGeneration(
    def get_multimodal_embeddings(
        self,
        **kwargs: object,
-    ) -> Optional[MultiModalEmbeddings]:
+    ) -> MultiModalEmbeddings:
        """Compute the audio embeddings if audio inputs are present."""
        audio_input = self._parse_and_validate_audio_input(**kwargs)
        if audio_input is None:
+            return []
            return None
        audio_features = self._process_audio_input(audio_input)
        return audio_features

--- a/vllm/model_executor/models/idefics3.py
+++ b/vllm/model_executor/models/idefics3.py
@@ -706,11 +706,11 @@ class Idefics3ForConditionalGeneration(nn.Module, SupportsMultiModal,
    def get_language_model(self) -> torch.nn.Module:
        return self.model
-    def get_multimodal_embeddings(
+    def get_multimodal_embeddings(self,
-            self, **kwargs: object) -> Optional[MultiModalEmbeddings]:
+                                  **kwargs: object) -> MultiModalEmbeddings:
        image_input = self._parse_and_validate_image_input(**kwargs)
        if image_input is None:
-            return None
+            return []
        return self._process_image_input(image_input)

--- a/vllm/model_executor/models/interfaces.py
+++ b/vllm/model_executor/models/interfaces.py
@@ -44,8 +44,8 @@ class SupportsMultiModal(Protocol):
        MRO of your model class.
    """
-    def get_multimodal_embeddings(
+    def get_multimodal_embeddings(self,
-            self, **kwargs: object) -> Optional[MultiModalEmbeddings]:
+                                  **kwargs: object) -> MultiModalEmbeddings:
        """
        Returns multimodal embeddings generated from multimodal kwargs 
        to be merged with text embeddings.

--- a/vllm/model_executor/models/internvl.py
+++ b/vllm/model_executor/models/internvl.py
@@ -1304,11 +1304,12 @@ class InternVLChatModel(nn.Module, SupportsMultiModal, SupportsPP,
    def get_language_model(self) -> torch.nn.Module:
        return self.language_model
-    def get_multimodal_embeddings(
+    def get_multimodal_embeddings(self,
-            self, **kwargs: object) -> Optional[MultiModalEmbeddings]:
+                                  **kwargs: object) -> MultiModalEmbeddings:
        modalities = self._parse_and_validate_multimodal_inputs(**kwargs)
        if not modalities:
+            return []
            return None
        # The result multimodal_embeddings is tuple of tensors, with each

--- a/vllm/model_executor/models/llava.py
+++ b/vllm/model_executor/models/llava.py
@@ -659,11 +659,11 @@ class LlavaForConditionalGeneration(nn.Module, SupportsMultiModal, SupportsPP):
    def get_language_model(self) -> torch.nn.Module:
        return self.language_model
-    def get_multimodal_embeddings(
+    def get_multimodal_embeddings(self,
-            self, **kwargs: object) -> Optional[MultiModalEmbeddings]:
+                                  **kwargs: object) -> MultiModalEmbeddings:
        image_input = self._parse_and_validate_image_input(**kwargs)
        if image_input is None:
-            return None
+            return []
        return self._process_image_input(image_input)

--- a/vllm/model_executor/models/llava_next.py
+++ b/vllm/model_executor/models/llava_next.py
@@ -478,11 +478,11 @@ class LlavaNextForConditionalGeneration(nn.Module, SupportsMultiModal,
    def get_language_model(self) -> torch.nn.Module:
        return self.language_model
-    def get_multimodal_embeddings(
+    def get_multimodal_embeddings(self,
-            self, **kwargs: object) -> Optional[MultiModalEmbeddings]:
+                                  **kwargs: object) -> MultiModalEmbeddings:
        image_input = self._parse_and_validate_image_input(**kwargs)
        if image_input is None:
-            return None
+            return []
        vision_embeddings = self._process_image_input(image_input)
        return vision_embeddings
@@ -492,7 +492,7 @@ class LlavaNextForConditionalGeneration(nn.Module, SupportsMultiModal,
        multimodal_embeddings: Optional[MultiModalEmbeddings] = None,
    ) -> torch.Tensor:
-        if multimodal_embeddings is None:
+        if not multimodal_embeddings:
            return self.language_model.get_input_embeddings(input_ids)
        inputs_embeds = embed_multimodal(

--- a/vllm/model_executor/models/llava_next_video.py
+++ b/vllm/model_executor/models/llava_next_video.py
@@ -401,11 +401,11 @@ class LlavaNextVideoForConditionalGeneration(nn.Module, SupportsMultiModal,
    def get_language_model(self) -> torch.nn.Module:
        return self.language_model
-    def get_multimodal_embeddings(
+    def get_multimodal_embeddings(self,
-            self, **kwargs: object) -> Optional[MultiModalEmbeddings]:
+                                  **kwargs: object) -> MultiModalEmbeddings:
        video_input = self._parse_and_validate_video_input(**kwargs)
        if video_input is None:
-            return None
+            return []
        vision_embeddings = self._process_video_pixels(video_input)
        return vision_embeddings

--- a/vllm/model_executor/models/llava_onevision.py
+++ b/vllm/model_executor/models/llava_onevision.py
@@ -839,11 +839,12 @@ class LlavaOnevisionForConditionalGeneration(nn.Module, SupportsMultiModal,
    def get_language_model(self) -> torch.nn.Module:
        return self.language_model
-    def get_multimodal_embeddings(
+    def get_multimodal_embeddings(self,
-            self, **kwargs: object) -> Optional[MultiModalEmbeddings]:
+                                  **kwargs: object) -> MultiModalEmbeddings:
        mm_input_by_modality = self._parse_and_validate_multimodal_inputs(
            **kwargs)
        if not mm_input_by_modality:
+            return []
            return None
        # The result multimodal_embeddings is tuple of tensors, with each

--- a/vllm/model_executor/models/minicpmv.py
+++ b/vllm/model_executor/models/minicpmv.py
@@ -878,11 +878,11 @@ class MiniCPMVBaseModel(nn.Module, SupportsMultiModal, SupportsPP):
    def get_language_model(self) -> torch.nn.Module:
        return self.llm
-    def get_multimodal_embeddings(
+    def get_multimodal_embeddings(self,
-            self, **kwargs: object) -> Optional[MultiModalEmbeddings]:
+                                  **kwargs: object) -> MultiModalEmbeddings:
        modalities = self._parse_and_validate_multimodal_inputs(**kwargs)
        if not modalities:
-            return None
+            return []
        return self._process_multimodal_inputs(modalities)

--- a/vllm/model_executor/models/minimax_vl_01.py
+++ b/vllm/model_executor/models/minimax_vl_01.py
@@ -318,11 +318,11 @@ class MiniMaxVL01ForConditionalGeneration(nn.Module, SupportsMultiModal,
        raise AssertionError("This line should be unreachable.")
-    def get_multimodal_embeddings(
+    def get_multimodal_embeddings(self,
-            self, **kwargs: object) -> Optional[MultiModalEmbeddings]:
+                                  **kwargs: object) -> MultiModalEmbeddings:
        image_input = self._parse_and_validate_image_input(**kwargs)
        if image_input is None:
-            return None
+            return []
        return self._process_image_input(image_input)

--- a/vllm/model_executor/models/mistral3.py
+++ b/vllm/model_executor/models/mistral3.py
@@ -495,11 +495,11 @@ class Mistral3ForConditionalGeneration(nn.Module, SupportsLoRA,
    def get_language_model(self) -> torch.nn.Module:
        return self.language_model
-    def get_multimodal_embeddings(
+    def get_multimodal_embeddings(self,
-            self, **kwargs: object) -> Optional[MultiModalEmbeddings]:
+                                  **kwargs: object) -> MultiModalEmbeddings:
        image_input = self._parse_and_validate_image_input(**kwargs)
        if image_input is None:
-            return None
+            return []
        vision_embeddings = self._process_image_input(image_input)