[Bugfix] Ignore `lm_head` when loading embedding models (#10719)

Signed-off-by: DarkLight1337 <tlleungac@connect.ust.hk>

[Bugfix] Ignore `lm_head` when loading embedding models (#10719)
Signed-off-by: DarkLight1337 <tlleungac@connect.ust.hk>
9b4b1503 · Cyrus Leung · GitHub · 197b4484 · 9b4b1503 · 9b4b1503
Unverified Commit 9b4b1503 authored Nov 28, 2024 by Cyrus Leung Committed by GitHub Nov 27, 2024
4 changed files
--- a/vllm/model_executor/models/bert.py
+++ b/vllm/model_executor/models/bert.py
@@ -443,6 +443,8 @@ class BertEmbeddingModel(nn.Module):
    def load_weights(self, weights: Iterable[Tuple[str, torch.Tensor]]):
        hf_to_vllm_mapper = WeightsMapper(orig_to_new_prefix={"model.": ""})
        weights = hf_to_vllm_mapper.apply(weights)
+        weights = ((name, data) for name, data in weights
+                   if not name.startswith("lm_head."))
        self.model.load_weights(weights)

    def _build_model(self,

--- a/vllm/model_executor/models/gemma2.py
+++ b/vllm/model_executor/models/gemma2.py
@@ -504,4 +504,6 @@ class Gemma2EmbeddingModel(nn.Module, SupportsPP):
    def load_weights(self, weights: Iterable[Tuple[str, torch.Tensor]]):
        hf_to_vllm_mapper = WeightsMapper(orig_to_new_prefix={"model.": ""})
        weights = hf_to_vllm_mapper.apply(weights)
+        weights = ((name, data) for name, data in weights
+                   if not name.startswith("lm_head."))
        self.model.load_weights(weights)
--- a/vllm/model_executor/models/llama.py
+++ b/vllm/model_executor/models/llama.py
@@ -689,6 +689,8 @@ class LlamaEmbeddingModel(nn.Module, SupportsLoRA, SupportsPP):
    def load_weights(self, weights: Iterable[Tuple[str, torch.Tensor]]):
        hf_to_vllm_mapper = WeightsMapper(orig_to_new_prefix={"model.": ""})
        weights = hf_to_vllm_mapper.apply(weights)
+        weights = ((name, data) for name, data in weights
+                   if not name.startswith("lm_head."))
        self.model.load_weights(weights)

    def load_kv_cache_scales(self, quantization_param_path: str) -> None:

--- a/vllm/model_executor/models/qwen2.py
+++ b/vllm/model_executor/models/qwen2.py
@@ -580,4 +580,6 @@ class Qwen2EmbeddingModel(nn.Module, SupportsLoRA, SupportsPP):
    def load_weights(self, weights: Iterable[Tuple[str, torch.Tensor]]):
        hf_to_vllm_mapper = WeightsMapper(orig_to_new_prefix={"model.": ""})
        weights = hf_to_vllm_mapper.apply(weights)
+        weights = ((name, data) for name, data in weights
+                   if not name.startswith("lm_head."))
        self.model.load_weights(weights)