[Bugfix] Token type and position embeddings fail to be applied to `inputs_embeds` (#25922)

Signed-off-by: DarkLight1337 <tlleungac@connect.ust.hk>

[Bugfix] Token type and position embeddings fail to be applied to `inputs_embeds` (#25922)
Signed-off-by: DarkLight1337 <tlleungac@connect.ust.hk>
9f1c4eca · Cyrus Leung · GitHub · ef283548 · 9f1c4eca · 9f1c4eca
Unverified Commit 9f1c4eca authored Oct 01, 2025 by Cyrus Leung Committed by GitHub Oct 01, 2025
Hide whitespace changes
Inline Side-by-side

Showing with 14 additions and 9 deletions

vllm/model_executor/models/bert.py vllm/model_executor/models/bert.py +10 -7

vllm/model_executor/models/roberta.py vllm/model_executor/models/roberta.py +4 -2

No files found.
--- a/vllm/model_executor/models/bert.py
+++ b/vllm/model_executor/models/bert.py
@@ -61,11 +61,13 @@ class BertEmbedding(nn.Module):
        self,
        input_ids: torch.Tensor,
        position_ids: torch.Tensor,
+        inputs_embeds: Optional[torch.Tensor] = None,
    ) -> torch.Tensor:
        token_type_ids = _decode_token_type_ids(input_ids)
-        inputs_embeds = self.word_embeddings(input_ids)
+        if inputs_embeds is None:
+            inputs_embeds = self.word_embeddings(input_ids)
        position_embeddings = self.position_embeddings(position_ids)
        token_type_embeddings = self.token_type_embeddings(token_type_ids)
@@ -358,11 +360,12 @@ class BertModel(nn.Module, SupportsQuant):
        intermediate_tensors: Optional[IntermediateTensors] = None,
        inputs_embeds: Optional[torch.Tensor] = None,
    ) -> torch.Tensor:
-        if inputs_embeds is not None:
+        hidden_states = self.embeddings(
-            hidden_states = inputs_embeds
+            input_ids=input_ids,
-        else:
+            position_ids=positions,
-            hidden_states = self.embeddings(input_ids=input_ids,
+            inputs_embeds=inputs_embeds,
-                                            position_ids=positions)
+        )
        return self.encoder(hidden_states)
    def _load_weights(self, weights: Iterable[tuple[str, torch.Tensor]]):

--- a/vllm/model_executor/models/roberta.py
+++ b/vllm/model_executor/models/roberta.py
@@ -56,11 +56,13 @@ class RobertaEmbedding(nn.Module):
        self,
        input_ids: torch.Tensor,
        position_ids: torch.Tensor,
+        inputs_embeds: Optional[torch.Tensor] = None,
    ) -> torch.Tensor:
        token_type_ids = _decode_token_type_ids(input_ids)
-        inputs_embeds = self.word_embeddings(input_ids)
+        if inputs_embeds is None:
+            inputs_embeds = self.word_embeddings(input_ids)
        position_embeddings = self.position_embeddings(position_ids)
        token_type_embeddings = self.token_type_embeddings(token_type_ids)