[Bugfix] Fix Tensor Parallelism Padding Consistency in Granite Models (#20843)

Signed-off-by: Alex-Brooks <Alex.Brooks@ibm.com>

[Bugfix] Fix Tensor Parallelism Padding Consistency in Granite Models (#20843)
Signed-off-by: Alex-Brooks <Alex.Brooks@ibm.com>
c2a2f19a · Alex Brooks · GitHub · 2c11a738 · c2a2f19a
Unverified Commit c2a2f19a authored Jul 12, 2025 by Alex Brooks Committed by GitHub Jul 12, 2025
Show whitespace changes
Inline Side-by-side

Showing with 4 additions and 0 deletions

vllm/model_executor/models/granite.py vllm/model_executor/models/granite.py +4 -0

No files found.
--- a/vllm/model_executor/models/granite.py
+++ b/vllm/model_executor/models/granite.py
@@ -273,6 +273,10 @@ class GraniteModel(nn.Module):
                self.vocab_size,
                config.hidden_size,
                org_num_embeddings=config.vocab_size,
+                padding_size=DEFAULT_VOCAB_PADDING_SIZE
+                # We need bigger padding if using lora for kernel
+                # compatibility
+                if not lora_config else lora_config.lora_vocab_padding_size,
                quant_config=quant_config,
            )
        else: