sync v0.15.1 (models)

df704163 · zhuwenwen · d7db129a · df704163 · df704163 · df704163
Commit df704163 authored Feb 06, 2026 by zhuwenwen
20 changed files
--- a/vllm/model_executor/models/nemotron_vl.py
+++ b/vllm/model_executor/models/nemotron_vl.py
@@ -597,7 +597,7 @@ class LlamaNemotronVLChatModel(nn.Module, SupportsMultiModal, SupportsPP, Suppor
    def forward(
        self,
-        input_ids: torch.Tensor | None,
+        input_ids: torch.Tensor,
        positions: torch.Tensor,
        intermediate_tensors: IntermediateTensors | None = None,
        inputs_embeds: torch.Tensor | None = None,
@@ -642,4 +642,4 @@ class LlamaNemotronVLChatModel(nn.Module, SupportsMultiModal, SupportsPP, Suppor
            language_model="language_model",
            connector="mlp1",
            tower_model="vision_model",
        )
\ No newline at end of file
--- a/vllm/model_executor/models/olmo.py
+++ b/vllm/model_executor/models/olmo.py
@@ -271,7 +271,7 @@ class OlmoModel(nn.Module):
    def forward(
        self,
-        input_ids: torch.Tensor | None,
+        input_ids: torch.Tensor,
        positions: torch.Tensor,
        intermediate_tensors: IntermediateTensors | None,
        inputs_embeds: torch.Tensor | None = None,
@@ -382,7 +382,7 @@ class OlmoForCausalLM(nn.Module, SupportsPP, SupportsLoRA):
    def forward(
        self,
-        input_ids: torch.Tensor | None,
+        input_ids: torch.Tensor,
        positions: torch.Tensor,
        intermediate_tensors: IntermediateTensors | None = None,
        inputs_embeds: torch.Tensor | None = None,
@@ -409,4 +409,4 @@ class OlmoForCausalLM(nn.Module, SupportsPP, SupportsLoRA):
                ["lm_head.weight"] if self.config.tie_word_embeddings else None
            ),
        )
        return loader.load_weights(weights)
\ No newline at end of file
--- a/vllm/model_executor/models/olmo2.py
+++ b/vllm/model_executor/models/olmo2.py
@@ -309,7 +309,7 @@ class Olmo2Model(nn.Module):
    def forward(
        self,
-        input_ids: torch.Tensor | None,
+        input_ids: torch.Tensor,
        positions: torch.Tensor,
        intermediate_tensors: IntermediateTensors | None,
        inputs_embeds: torch.Tensor | None = None,
@@ -424,7 +424,7 @@ class Olmo2ForCausalLM(nn.Module, SupportsPP, SupportsLoRA):
    def forward(
        self,
-        input_ids: torch.Tensor | None,
+        input_ids: torch.Tensor,
        positions: torch.Tensor,
        intermediate_tensors: IntermediateTensors | None = None,
        inputs_embeds: torch.Tensor | None = None,
@@ -451,4 +451,4 @@ class Olmo2ForCausalLM(nn.Module, SupportsPP, SupportsLoRA):
                ["lm_head.weight"] if self.config.tie_word_embeddings else None
            ),
        )
        return loader.load_weights(weights)
\ No newline at end of file
--- a/vllm/model_executor/models/olmoe.py
+++ b/vllm/model_executor/models/olmoe.py
@@ -300,7 +300,7 @@ class OlmoeModel(nn.Module):
    def forward(
        self,
-        input_ids: torch.Tensor | None,
+        input_ids: torch.Tensor,
        positions: torch.Tensor,
        intermediate_tensors: IntermediateTensors | None,
        inputs_embeds: torch.Tensor | None = None,
@@ -476,7 +476,7 @@ class OlmoeForCausalLM(nn.Module, SupportsPP, SupportsLoRA):
    def forward(
        self,
-        input_ids: torch.Tensor | None,
+        input_ids: torch.Tensor,
        positions: torch.Tensor,
        intermediate_tensors: IntermediateTensors | None = None,
        inputs_embeds: torch.Tensor | None = None,
@@ -495,4 +495,4 @@ class OlmoeForCausalLM(nn.Module, SupportsPP, SupportsLoRA):
        return loader.load_weights(weights)
    def get_expert_mapping(self) -> list[tuple[str, str, int, str]]:
        return self.model.get_expert_mapping()
\ No newline at end of file
--- a/vllm/model_executor/models/openpangu.py
+++ b/vllm/model_executor/models/openpangu.py
@@ -1056,7 +1056,7 @@ class OpenPanguModel(nn.Module):
    def forward(
        self,
-        input_ids: torch.Tensor | None,
+        input_ids: torch.Tensor,
        positions: torch.Tensor,
        intermediate_tensors: IntermediateTensors | None,
        inputs_embeds: torch.Tensor | None = None,
@@ -1286,7 +1286,7 @@ class OpenPanguModelBase(nn.Module, SupportsPP, SupportsLoRA):
    def forward(
        self,
-        input_ids: torch.Tensor | None,
+        input_ids: torch.Tensor,
        positions: torch.Tensor,
        intermediate_tensors: IntermediateTensors | None = None,
        inputs_embeds: torch.Tensor | None = None,
@@ -1375,4 +1375,4 @@ class PanguUltraMoEForCausalLM(OpenPanguMoEModel):
 class PanguProMoEV2ForCausalLM(OpenPanguMoEModel):
    pass
\ No newline at end of file
--- a/vllm/model_executor/models/openpangu_mtp.py
+++ b/vllm/model_executor/models/openpangu_mtp.py
@@ -104,7 +104,7 @@ class OpenPanguMTP(nn.Module):
    def forward(
        self,
-        input_ids: torch.Tensor | None,
+        input_ids: torch.Tensor,
        positions: torch.Tensor,
        hidden_states: torch.Tensor,
        intermediate_tensors: IntermediateTensors | None = None,
@@ -262,4 +262,4 @@ class OpenPanguMTP(nn.Module):
        elif shared_weight:
            # treat shared weights as top level weights
            name = name.replace(f"model.layers.{spec_layer}.", "model.")
        return name
\ No newline at end of file
--- a/vllm/model_executor/models/opt.py
+++ b/vllm/model_executor/models/opt.py
@@ -267,7 +267,7 @@ class OPTDecoder(nn.Module):
    def forward(
        self,
-        input_ids: torch.Tensor | None,
+        input_ids: torch.Tensor,
        positions: torch.Tensor,
        intermediate_tensors: IntermediateTensors | None,
        inputs_embeds: torch.Tensor | None = None,
@@ -316,7 +316,7 @@ class OPTModel(nn.Module):
    def forward(
        self,
-        input_ids: torch.Tensor | None,
+        input_ids: torch.Tensor,
        positions: torch.Tensor,
        intermediate_tensors: IntermediateTensors | None,
        inputs_embeds: torch.Tensor | None = None,
@@ -399,7 +399,7 @@ class OPTForCausalLM(nn.Module, SupportsPP, SupportsLoRA):
    def forward(
        self,
-        input_ids: torch.Tensor | None,
+        input_ids: torch.Tensor,
        positions: torch.Tensor,
        intermediate_tensors: IntermediateTensors | None = None,
        inputs_embeds: torch.Tensor | None = None,
@@ -423,4 +423,4 @@ class OPTForCausalLM(nn.Module, SupportsPP, SupportsLoRA):
                ["lm_head.weight"] if self.config.tie_word_embeddings else None
            ),
        )
        return loader.load_weights(weights, mapper=self.hf_to_vllm_mapper)
\ No newline at end of file
--- a/vllm/model_executor/models/orion.py
+++ b/vllm/model_executor/models/orion.py
@@ -253,7 +253,7 @@ class OrionModel(nn.Module):
    def forward(
        self,
-        input_ids: torch.Tensor | None,
+        input_ids: torch.Tensor,
        positions: torch.Tensor,
        intermediate_tensors: IntermediateTensors | None,
        inputs_embeds: torch.Tensor | None = None,
@@ -343,7 +343,7 @@ class OrionForCausalLM(nn.Module, SupportsPP):
    def forward(
        self,
-        input_ids: torch.Tensor | None,
+        input_ids: torch.Tensor,
        positions: torch.Tensor,
        intermediate_tensors: IntermediateTensors | None = None,
        inputs_embeds: torch.Tensor | None = None,
@@ -362,4 +362,4 @@ class OrionForCausalLM(nn.Module, SupportsPP):
    def load_weights(self, weights: Iterable[tuple[str, torch.Tensor]]) -> set[str]:
        loader = AutoWeightsLoader(self)
        return loader.load_weights(weights)
\ No newline at end of file
--- a/vllm/model_executor/models/ouro.py
+++ b/vllm/model_executor/models/ouro.py
@@ -357,7 +357,7 @@ class OuroModel(nn.Module):
    def forward(
        self,
-        input_ids: torch.Tensor | None,
+        input_ids: torch.Tensor,
        positions: torch.Tensor,
        intermediate_tensors: IntermediateTensors | None = None,
        inputs_embeds: torch.Tensor | None = None,
@@ -482,7 +482,7 @@ class OuroForCausalLM(nn.Module, SupportsLoRA):
    def forward(
        self,
-        input_ids: torch.Tensor | None,
+        input_ids: torch.Tensor,
        positions: torch.Tensor,
        intermediate_tensors: IntermediateTensors | None = None,
        inputs_embeds: torch.Tensor | None = None,
@@ -504,4 +504,4 @@ class OuroForCausalLM(nn.Module, SupportsLoRA):
            self,
            skip_prefixes=(["lm_head."] if self.config.tie_word_embeddings else None),
        )
        return loader.load_weights(weights)
\ No newline at end of file
--- a/vllm/model_executor/models/ovis.py
+++ b/vllm/model_executor/models/ovis.py
@@ -525,7 +525,7 @@ class Ovis(nn.Module, SupportsMultiModal, SupportsPP):
    def forward(
        self,
-        input_ids: torch.Tensor | None,
+        input_ids: torch.Tensor,
        positions: torch.Tensor,
        intermediate_tensors: IntermediateTensors | None = None,
        inputs_embeds: torch.Tensor | None = None,
@@ -552,4 +552,4 @@ class Ovis(nn.Module, SupportsMultiModal, SupportsPP):
    def load_weights(self, weights: Iterable[tuple[str, torch.Tensor]]) -> set[str]:
        loader = AutoWeightsLoader(self)
        return loader.load_weights(weights)
\ No newline at end of file
--- a/vllm/model_executor/models/ovis2_5.py
+++ b/vllm/model_executor/models/ovis2_5.py
@@ -632,7 +632,7 @@ class Ovis2_5(nn.Module, SupportsMultiModal, SupportsPP):
    def forward(
        self,
-        input_ids: torch.Tensor | None,
+        input_ids: torch.Tensor,
        positions: torch.Tensor,
        intermediate_tensors: IntermediateTensors | None = None,
        inputs_embeds: torch.Tensor | None = None,
@@ -659,4 +659,4 @@ class Ovis2_5(nn.Module, SupportsMultiModal, SupportsPP):
    def load_weights(self, weights: Iterable[tuple[str, torch.Tensor]]) -> set[str]:
        loader = AutoWeightsLoader(self)
        return loader.load_weights(weights)
\ No newline at end of file
--- a/vllm/model_executor/models/paddleocr_vl.py
+++ b/vllm/model_executor/models/paddleocr_vl.py
@@ -1159,7 +1159,7 @@ class PaddleOCRVLForConditionalGeneration(nn.Module, SupportsMultiModal, Support
    def forward(
        self,
-        input_ids: torch.Tensor | None,
+        input_ids: torch.Tensor,
        positions: torch.Tensor,
        intermediate_tensors: IntermediateTensors | None = None,
        inputs_embeds: torch.Tensor | None = None,
@@ -1227,4 +1227,4 @@ class PaddleOCRVLForConditionalGeneration(nn.Module, SupportsMultiModal, Support
    def load_weights(self, weights: Iterable[tuple[str, torch.Tensor]]) -> set[str]:
        loader = AutoWeightsLoader(self)
        autoloaded_weights = loader.load_weights(weights, mapper=self.hf_to_vllm_mapper)
        return autoloaded_weights
\ No newline at end of file
--- a/vllm/model_executor/models/paligemma.py
+++ b/vllm/model_executor/models/paligemma.py
@@ -389,7 +389,7 @@ class PaliGemmaForConditionalGeneration(
    def forward(
        self,
-        input_ids: torch.Tensor | None,
+        input_ids: torch.Tensor,
        positions: torch.Tensor,
        intermediate_tensors: IntermediateTensors | None = None,
        inputs_embeds: torch.Tensor | None = None,
@@ -425,4 +425,4 @@ class PaliGemmaForConditionalGeneration(
        return num_image_tokens
    def get_num_mm_connector_tokens(self, num_vision_tokens: int) -> int:
        return num_vision_tokens
\ No newline at end of file
--- a/vllm/model_executor/models/persimmon.py
+++ b/vllm/model_executor/models/persimmon.py
@@ -271,7 +271,7 @@ class PersimmonModel(nn.Module):
    def forward(
        self,
-        input_ids: torch.Tensor | None,
+        input_ids: torch.Tensor,
        positions: torch.Tensor,
        intermediate_tensors: IntermediateTensors | None,
        inputs_embeds: torch.Tensor | None = None,
@@ -348,7 +348,7 @@ class PersimmonForCausalLM(nn.Module, SupportsPP):
    def forward(
        self,
-        input_ids: torch.Tensor | None,
+        input_ids: torch.Tensor,
        positions: torch.Tensor,
        intermediate_tensors: IntermediateTensors | None = None,
        inputs_embeds: torch.Tensor | None = None,
@@ -370,4 +370,4 @@ class PersimmonForCausalLM(nn.Module, SupportsPP):
    def load_weights(self, weights: Iterable[tuple[str, torch.Tensor]]) -> set[str]:
        loader = AutoWeightsLoader(self)
        return loader.load_weights(weights)
\ No newline at end of file
--- a/vllm/model_executor/models/phi.py
+++ b/vllm/model_executor/models/phi.py
@@ -234,7 +234,7 @@ class PhiModel(nn.Module):
    def forward(
        self,
-        input_ids: torch.Tensor | None,
+        input_ids: torch.Tensor,
        positions: torch.Tensor,
        intermediate_tensors: IntermediateTensors | None,
        inputs_embeds: torch.Tensor | None = None,
@@ -340,7 +340,7 @@ class PhiForCausalLM(nn.Module, SupportsLoRA, SupportsPP):
    def forward(
        self,
-        input_ids: torch.Tensor | None,
+        input_ids: torch.Tensor,
        positions: torch.Tensor,
        intermediate_tensors: IntermediateTensors | None = None,
        inputs_embeds: torch.Tensor | None = None,
@@ -360,4 +360,4 @@ class PhiForCausalLM(nn.Module, SupportsLoRA, SupportsPP):
    def load_weights(self, weights: Iterable[tuple[str, torch.Tensor]]) -> set[str]:
        loader = AutoWeightsLoader(self)
        return loader.load_weights(weights)
\ No newline at end of file
--- a/vllm/model_executor/models/phi3v.py
+++ b/vllm/model_executor/models/phi3v.py
@@ -686,7 +686,7 @@ class Phi3VForCausalLM(nn.Module, SupportsMultiModal, SupportsPP, SupportsQuant)
    def forward(
        self,
-        input_ids: torch.Tensor | None,
+        input_ids: torch.Tensor,
        positions: torch.Tensor,
        intermediate_tensors: IntermediateTensors | None = None,
        inputs_embeds: torch.Tensor | None = None,
@@ -716,4 +716,4 @@ class Phi3VForCausalLM(nn.Module, SupportsMultiModal, SupportsPP, SupportsQuant)
        if "embed_tokens.weight" not in autoloaded_weights:
            self.embed_tokens = self.language_model.model.embed_tokens
            autoloaded_weights.add("embed_tokens.weight")
        return autoloaded_weights
\ No newline at end of file
--- a/vllm/model_executor/models/phi4mm.py
+++ b/vllm/model_executor/models/phi4mm.py
@@ -1211,7 +1211,7 @@ class Phi4MMForCausalLM(nn.Module, SupportsLoRA, SupportsMultiModal):
    def forward(
        self,
-        input_ids: torch.Tensor | None,
+        input_ids: torch.Tensor,
        positions: torch.Tensor,
        intermediate_tensors: IntermediateTensors | None = None,
        inputs_embeds: torch.Tensor | None = None,
@@ -1248,4 +1248,4 @@ class Phi4MMForCausalLM(nn.Module, SupportsLoRA, SupportsMultiModal):
            language_model="model.",
            connector=["audio_projection_for_vision", "audio_projection"],
            tower_model=["vision_encoder", "embed_tokens_extend"],
        )
\ No newline at end of file
--- a/vllm/model_executor/models/phimoe.py
+++ b/vllm/model_executor/models/phimoe.py
@@ -483,7 +483,7 @@ class PhiMoEModel(nn.Module):
    def forward(
        self,
-        input_ids: torch.Tensor | None,
+        input_ids: torch.Tensor,
        positions: torch.Tensor,
        intermediate_tensors: IntermediateTensors | None,
        inputs_embeds: torch.Tensor | None = None,
@@ -649,7 +649,7 @@ class PhiMoEForCausalLM(nn.Module, SupportsLoRA, SupportsPP):
    def forward(
        self,
-        input_ids: torch.Tensor | None,
+        input_ids: torch.Tensor,
        positions: torch.Tensor,
        intermediate_tensors: IntermediateTensors | None = None,
        inputs_embeds: torch.Tensor | None = None,
@@ -668,4 +668,4 @@ class PhiMoEForCausalLM(nn.Module, SupportsLoRA, SupportsPP):
        return loader.load_weights(weights)
    def get_expert_mapping(self) -> list[tuple[str, str, int, str]]:
        return self.model.get_expert_mapping()
\ No newline at end of file
--- a/vllm/model_executor/models/pixtral.py
+++ b/vllm/model_executor/models/pixtral.py
@@ -479,7 +479,7 @@ class PixtralForConditionalGeneration(
    def forward(
        self,
-        input_ids: torch.Tensor | None,
+        input_ids: torch.Tensor,
        positions: torch.Tensor,
        intermediate_tensors: IntermediateTensors | None = None,
        inputs_embeds: torch.Tensor | None = None,
@@ -1413,4 +1413,4 @@ class PixtralHFVisionModel(nn.Module):
                weight_loader = getattr(param, "weight_loader", default_weight_loader)
                weight_loader(param, loaded_weight)
            loaded_params.add(name)
        return loaded_params
\ No newline at end of file
--- a/vllm/model_executor/models/plamo2.py
+++ b/vllm/model_executor/models/plamo2.py
@@ -775,7 +775,7 @@ class Plamo2Model(torch.nn.Module):
    def forward(
        self,
-        input_ids: torch.Tensor | None,
+        input_ids: torch.Tensor,
        positions: torch.Tensor,
        intermediate_tensors: IntermediateTensors | None = None,
        inputs_embeds: torch.Tensor | None = None,
@@ -852,7 +852,7 @@ class Plamo2ForCausalLM(
    def forward(
        self,
-        input_ids: torch.Tensor | None,
+        input_ids: torch.Tensor,
        positions: torch.Tensor,
        intermediate_tensors: IntermediateTensors | None = None,
        inputs_embeds: torch.Tensor | None = None,
@@ -996,4 +996,4 @@ class Plamo2ForCausalLM(
            param = params_dict[name]
            weight_loader = getattr(param, "weight_loader", default_weight_loader)
            weight_loader(param, loaded_weight)
\ No newline at end of file