[4/N] Initialize MM components in context managers (M-P) (#32663)

Signed-off-by: DarkLight1337 <tlleungac@connect.ust.hk>

[4/N] Initialize MM components in context managers (M-P) (#32663)
Signed-off-by: DarkLight1337 <tlleungac@connect.ust.hk>
fda3f03e · Cyrus Leung · GitHub · bb917203 · fda3f03e · fda3f03e
Unverified Commit fda3f03e authored Jan 20, 2026 by Cyrus Leung Committed by GitHub Jan 20, 2026
4 changed files
--- a/vllm/model_executor/models/qwen3_vl_moe.py
+++ b/vllm/model_executor/models/qwen3_vl_moe.py
@@ -453,15 +453,15 @@ class Qwen3VLMoeForConditionalGeneration(
                ]

        with self._mark_language_model(vllm_config):
-            self.language_model = Qwen3MoeLLMForCausalLM(
+            self.language_model = language_model = Qwen3MoeLLMForCausalLM(
                vllm_config=vllm_config, prefix=maybe_prefix(prefix, "language_model")
            )

-        # Whether to include the gate_up_proj mapping is determined by
-        # the language model.
-        self.packed_modules_mapping = (
-            self.packed_modules_mapping | self.language_model.packed_modules_mapping
-        )
+            # Whether to include the gate_up_proj mapping is determined by
+            # the language model.
+            self.packed_modules_mapping = (
+                self.packed_modules_mapping | language_model.packed_modules_mapping
+            )

        self.make_empty_intermediate_tensors = (
            self.language_model.make_empty_intermediate_tensors

--- a/vllm/model_executor/models/skyworkr1v.py
+++ b/vllm/model_executor/models/skyworkr1v.py
@@ -908,7 +908,6 @@ class SkyworkR1VChatModel(nn.Module, SupportsMultiModal, SupportsPP):
        **kwargs: object,
    ) -> IntermediateTensors:
        if intermediate_tensors is not None:
-            input_ids = None
            inputs_embeds = None

        forward_kwargs = {

--- a/vllm/model_executor/models/step3_vl.py
+++ b/vllm/model_executor/models/step3_vl.py
@@ -1104,14 +1104,6 @@ class Step3VLForConditionalGeneration(nn.Module, SupportsMultiModal, SupportsPP)
    ) -> torch.Tensor | IntermediateTensors:
        if intermediate_tensors is not None:
            inputs_embeds = None
-        elif inputs_embeds is None:
-            vision_embeddings = self.embed_multimodal(**kwargs)
-            inputs_embeds = self.embed_input_ids(
-                input_ids,
-                vision_embeddings,
-                is_multimodal=input_ids == self.config.image_token_id,
-            )
-            input_ids = None

        hidden_states = self.language_model(
            input_ids, positions, intermediate_tensors, inputs_embeds=inputs_embeds

--- a/vllm/model_executor/models/tarsier.py
+++ b/vllm/model_executor/models/tarsier.py
@@ -597,14 +597,7 @@ class TarsierForConditionalGeneration(nn.Module, SupportsMultiModal, SupportsPP)
    ) -> torch.Tensor | IntermediateTensors:
        if intermediate_tensors is not None:
            inputs_embeds = None
-        elif inputs_embeds is None:
-            vision_embeddings = self.embed_multimodal(**kwargs)
-            inputs_embeds = self.embed_input_ids(
-                input_ids,
-                vision_embeddings,
-                is_multimodal=input_ids == self.config.image_token_index,
-            )
-            input_ids = None
+
        hidden_states = self.language_model.model(
            input_ids=input_ids,
            positions=positions,