[LoRA] Cleanup LoRA unused code (#29611)

Signed-off-by: Jee Jee Li <pandaleefree@gmail.com> Co-authored-by: Cyrus Leung <tlleungac@connect.ust.hk>

[LoRA] Cleanup LoRA unused code (#29611)
Signed-off-by: Jee Jee Li <pandaleefree@gmail.com> Co-authored-by: Cyrus Leung <tlleungac@connect.ust.hk>
39e63dec · Jee Jee Li · GitHub · 4a80ad0a · 39e63dec · 39e63dec
Unverified Commit 39e63dec authored Nov 29, 2025 by Jee Jee Li Committed by GitHub Nov 28, 2025
6 changed files
--- a/vllm/model_executor/models/nemotron_h.py
+++ b/vllm/model_executor/models/nemotron_h.py
@@ -713,7 +713,6 @@ class NemotronHForCausalLM(
        "embed_tokens": "input_embeddings",
        "lm_head": "output_embeddings",
    }
-    embedding_padding_modules = ["lm_head"]
    @classmethod
    def get_mamba_state_dtype_from_config(

--- a/vllm/model_executor/models/nemotron_nas.py
+++ b/vllm/model_executor/models/nemotron_nas.py
@@ -387,7 +387,6 @@ class DeciLMForCausalLM(nn.Module, SupportsLoRA, SupportsPP, HasNoOps):
        "embed_tokens": "input_embeddings",
        "lm_head": "output_embeddings",
    }
-    embedding_padding_modules = ["lm_head"]
    # Mistral/Llama models can also be loaded with --load-format mistral
    # from consolidated.safetensors checkpoints

--- a/vllm/model_executor/models/phimoe.py
+++ b/vllm/model_executor/models/phimoe.py
@@ -617,7 +617,6 @@ class PhiMoEForCausalLM(nn.Module, SupportsLoRA, SupportsPP):
        "embed_tokens": "input_embeddings",
        "lm_head": "output_embeddings",
    }
-    embedding_padding_modules = ["lm_head"]
    def __init__(self, *, vllm_config: VllmConfig, prefix: str = ""):
        super().__init__()

--- a/vllm/model_executor/models/solar.py
+++ b/vllm/model_executor/models/solar.py
@@ -426,7 +426,6 @@ class SolarForCausalLM(nn.Module, SupportsLoRA, SupportsPP):
        "embed_tokens": "input_embeddings",
        "lm_head": "output_embeddings",
    }
-    embedding_padding_modules = ["lm_head"]
    def __init__(self, *, vllm_config: VllmConfig, prefix: str = ""):
        super().__init__()

--- a/vllm/model_executor/models/transformers/base.py
+++ b/vllm/model_executor/models/transformers/base.py
@@ -93,7 +93,6 @@ ALL_ATTENTION_FUNCTIONS["vllm"] = vllm_flash_attention_forward
 class Base(nn.Module, VllmModel, SupportsQuant, SupportsLoRA, SupportsPP):
-    embedding_padding_modules = ["lm_head"]
    embedding_modules = ["embed_tokens"]  # TODO transformers will have a util to get it
    hf_to_vllm_mapper = WeightsMapper(
        orig_to_new_prefix={

--- a/vllm/v1/worker/lora_model_runner_mixin.py
+++ b/vllm/v1/worker/lora_model_runner_mixin.py
@@ -43,7 +43,6 @@ class LoRAModelRunnerMixin:
            vllm_config,
            device,
            model.embedding_modules,
-            model.embedding_padding_modules,
        )
        return self.lora_manager.create_lora_manager(model)