[Fix][Spec Decode] Fix llama4 draft loading with different quantization (#27136)

Signed-off-by: linzebing <linzebing1995@gmail.com>

[Fix][Spec Decode] Fix llama4 draft loading with different quantization (#27136)
Signed-off-by: linzebing <linzebing1995@gmail.com>
be444507 · Zebing Lin · GitHub · f381cf23 · be444507
Unverified Commit be444507 authored Oct 21, 2025 by Zebing Lin Committed by GitHub Oct 20, 2025
Show whitespace changes
Inline Side-by-side

Showing with 17 additions and 10 deletions

vllm/model_executor/models/llama4_eagle.py vllm/model_executor/models/llama4_eagle.py +17 -10

No files found.
--- a/vllm/model_executor/models/llama4_eagle.py
+++ b/vllm/model_executor/models/llama4_eagle.py
@@ -60,6 +60,10 @@ class LlamaModel(nn.Module):
            prefix=maybe_prefix(prefix, "embed_tokens"),
        )

+        # Temporarily modify vllm_config.quant_config for draft model layers
+        original_quant_config = vllm_config.quant_config
+        vllm_config.quant_config = quant_config
+        try:
            self.layers = nn.ModuleList(
                [
                    Llama4DecoderLayer(
@@ -70,6 +74,9 @@ class LlamaModel(nn.Module):
                    for i in range(self.config.num_hidden_layers)
                ]
            )
+        finally:
+            # Restore original quant_config
+            vllm_config.quant_config = original_quant_config
        self.fc = torch.nn.Linear(
            self.config.hidden_size * 2, self.config.hidden_size, bias=False
        )