Clean up unused padding_idx variables across many model definitions (#13240)

Signed-off-by: Tyler Michael Smith <tyler@neuralmagic.com>

Clean up unused padding_idx variables across many model definitions (#13240)
Signed-off-by: Tyler Michael Smith <tyler@neuralmagic.com>
4f5b059f · Tyler Michael Smith · GitHub · 288ca110 · 4f5b059f · 4f5b059f
Unverified Commit 4f5b059f authored Mar 04, 2025 by Tyler Michael Smith Committed by GitHub Mar 04, 2025
20 changed files
--- a/vllm/model_executor/models/arctic.py
+++ b/vllm/model_executor/models/arctic.py
@@ -370,7 +370,6 @@ class ArcticModel(nn.Module):
        cache_config = vllm_config.cache_config
        quant_config = vllm_config.quant_config
-        self.padding_idx = config.pad_token_id
        self.vocab_size = config.vocab_size
        self.embed_tokens = VocabParallelEmbedding(
            self.vocab_size,

--- a/vllm/model_executor/models/baichuan.py
+++ b/vllm/model_executor/models/baichuan.py
@@ -267,7 +267,6 @@ class BaiChuanModel(nn.Module):
        quant_config = vllm_config.quant_config
        self.config = config
-        self.padding_idx = config.pad_token_id
        self.vocab_size = config.vocab_size
        self.embed_tokens = VocabParallelEmbedding(

--- a/vllm/model_executor/models/bart.py
+++ b/vllm/model_executor/models/bart.py
@@ -725,7 +725,6 @@ class BartModel(nn.Module):
        self.config = config
-        self.padding_idx = config.pad_token_id
        lora_vocab = (lora_config.lora_extra_vocab_size *
                      (lora_config.max_loras or 1)) if lora_config else 0
        self.vocab_size = config.vocab_size + lora_vocab

--- a/vllm/model_executor/models/chameleon.py
+++ b/vllm/model_executor/models/chameleon.py
@@ -851,7 +851,6 @@ class ChameleonModel(nn.Module):
        quant_config = vllm_config.quant_config
        self.config = config
-        self.padding_idx = config.pad_token_id
        self.vocab_size = config.vocab_size
        self.embed_tokens = VocabParallelEmbedding(
            self.vocab_size,

--- a/vllm/model_executor/models/deepseek.py
+++ b/vllm/model_executor/models/deepseek.py
@@ -339,7 +339,6 @@ class DeepseekModel(nn.Module):
        cache_config = vllm_config.cache_config
        quant_config = vllm_config.quant_config
-        self.padding_idx = config.pad_token_id
        self.vocab_size = config.vocab_size
        self.embed_tokens = VocabParallelEmbedding(

--- a/vllm/model_executor/models/deepseek_v2.py
+++ b/vllm/model_executor/models/deepseek_v2.py
@@ -570,7 +570,6 @@ class DeepseekV2Model(nn.Module):
        cache_config = vllm_config.cache_config
        quant_config = vllm_config.quant_config
-        self.padding_idx = config.pad_token_id
        self.vocab_size = config.vocab_size
        if get_pp_group().is_first_rank:

--- a/vllm/model_executor/models/exaone.py
+++ b/vllm/model_executor/models/exaone.py
@@ -313,7 +313,6 @@ class ExaoneModel(nn.Module):
        lora_config = vllm_config.lora_config
        self.config = config
-        self.padding_idx = config.pad_token_id
        lora_vocab = ((lora_config.lora_extra_vocab_size *
                       (lora_config.max_loras or 1)) if lora_config else 0)
        self.vocab_size = config.vocab_size + lora_vocab

--- a/vllm/model_executor/models/florence2.py
+++ b/vllm/model_executor/models/florence2.py
@@ -592,7 +592,6 @@ class Florence2LanguageModel(nn.Module):
        self.config = config
-        self.padding_idx = config.pad_token_id
        self.vocab_size = config.vocab_size
        self.shared = BartScaledWordEmbedding(self.vocab_size, config.d_model)

--- a/vllm/model_executor/models/fuyu.py
+++ b/vllm/model_executor/models/fuyu.py
@@ -255,7 +255,6 @@ class FuyuForCausalLM(nn.Module, SupportsMultiModal, SupportsPP):
        self.config = config
        self.multimodal_config = multimodal_config
-        self.padding_idx = config.pad_token_id
        self.vocab_size = config.text_config.vocab_size
        self.image_token_id = _IMAGE_TOKEN_ID
        self.image_feature_size = config.patch_size**2 * config.num_channels

--- a/vllm/model_executor/models/granite.py
+++ b/vllm/model_executor/models/granite.py
@@ -260,7 +260,6 @@ class GraniteModel(nn.Module):
        lora_config = vllm_config.lora_config
        self.config = config
-        self.padding_idx = config.pad_token_id
        lora_vocab = (lora_config.lora_extra_vocab_size *
                      (lora_config.max_loras or 1)) if lora_config else 0
        self.vocab_size = config.vocab_size + lora_vocab

--- a/vllm/model_executor/models/granitemoe.py
+++ b/vllm/model_executor/models/granitemoe.py
@@ -252,7 +252,6 @@ class GraniteMoeModel(nn.Module):
        quant_config = vllm_config.quant_config
        lora_config = vllm_config.lora_config
-        self.padding_idx = config.pad_token_id
        lora_vocab = (lora_config.lora_extra_vocab_size *
                      (lora_config.max_loras or 1)) if lora_config else 0
        self.vocab_size = config.vocab_size + lora_vocab

--- a/vllm/model_executor/models/idefics3.py
+++ b/vllm/model_executor/models/idefics3.py
@@ -404,7 +404,6 @@ class Idefics3Model(nn.Module):
        quant_config = vllm_config.quant_config
        self.config = config
-        self.padding_idx = self.config.text_config.pad_token_id
        self.vocab_size = self.config.text_config.vocab_size
        self.vision_model = Idefics3VisionTransformer(
            config.vision_config,

--- a/vllm/model_executor/models/internlm2.py
+++ b/vllm/model_executor/models/internlm2.py
@@ -261,7 +261,6 @@ class InternLM2Model(nn.Module):
        quant_config = vllm_config.quant_config
        self.config = config
-        self.padding_idx = config.pad_token_id
        self.vocab_size = config.vocab_size
        self.tok_embeddings = VocabParallelEmbedding(
            config.vocab_size,

--- a/vllm/model_executor/models/jamba.py
+++ b/vllm/model_executor/models/jamba.py
@@ -271,7 +271,6 @@ class JambaModel(nn.Module):
        lora_config = vllm_config.lora_config
        self.config = config
-        self.padding_idx = config.pad_token_id
        lora_vocab = ((lora_config.lora_extra_vocab_size *
                       (lora_config.max_loras or 1)) if lora_config else 0)
        self.vocab_size = config.vocab_size + lora_vocab

--- a/vllm/model_executor/models/llama.py
+++ b/vllm/model_executor/models/llama.py
@@ -302,7 +302,6 @@ class LlamaModel(nn.Module):
        self.config = config
        self.quant_config = quant_config
-        self.padding_idx = config.pad_token_id
        lora_vocab = (lora_config.lora_extra_vocab_size *
                      (lora_config.max_loras or 1)) if lora_config else 0
        self.vocab_size = config.vocab_size + lora_vocab

--- a/vllm/model_executor/models/mamba.py
+++ b/vllm/model_executor/models/mamba.py
@@ -90,7 +90,6 @@ class MambaModel(nn.Module):
        is_lora_enabled = bool(lora_config)
        self.config = config
-        self.padding_idx = config.pad_token_id
        lora_vocab = ((lora_config.lora_extra_vocab_size *
                       (lora_config.max_loras or 1)) if lora_config else 0)
        self.vocab_size = config.vocab_size + lora_vocab

--- a/vllm/model_executor/models/minicpm.py
+++ b/vllm/model_executor/models/minicpm.py
@@ -365,7 +365,6 @@ class MiniCPMModel(nn.Module):
        self.config = config
        self.cache_config = cache_config
        self.quant_config = quant_config
-        self.padding_idx = config.pad_token_id
        lora_vocab = (lora_config.lora_extra_vocab_size *
                      (lora_config.max_loras or 1)) if lora_config else 0
        self.vocab_size = config.vocab_size + lora_vocab

--- a/vllm/model_executor/models/mixtral.py
+++ b/vllm/model_executor/models/mixtral.py
@@ -254,7 +254,6 @@ class MixtralModel(nn.Module):
        quant_config = vllm_config.quant_config
        lora_config = vllm_config.lora_config
-        self.padding_idx = config.pad_token_id
        lora_vocab = (lora_config.lora_extra_vocab_size *
                      (lora_config.max_loras or 1)) if lora_config else 0
        self.vocab_size = config.vocab_size + lora_vocab

--- a/vllm/model_executor/models/mixtral_quant.py
+++ b/vllm/model_executor/models/mixtral_quant.py
@@ -302,7 +302,6 @@ class MixtralModel(nn.Module):
        cache_config = vllm_config.cache_config
        quant_config = vllm_config.quant_config
-        self.padding_idx = config.pad_token_id
        self.vocab_size = config.vocab_size
        self.embed_tokens = VocabParallelEmbedding(

--- a/vllm/model_executor/models/mllama.py
+++ b/vllm/model_executor/models/mllama.py
@@ -1031,7 +1031,6 @@ class MllamaTextModel(nn.Module):
        cache_config = vllm_config.cache_config
        quant_config = vllm_config.quant_config
-        self.padding_idx = config.pad_token_id
        self.vocab_size = config.vocab_size
        self.embed_tokens = VocabParallelEmbedding(config.vocab_size + 8,
                                                   config.hidden_size)