[Bugfix] MLPSpeculator: Use ParallelLMHead in tie_weights=False case. (#6303)

Signed-off-by: Thomas Parnell <tpa@zurich.ibm.com>

[Bugfix] MLPSpeculator: Use ParallelLMHead in tie_weights=False case. (#6303)
Signed-off-by: Thomas Parnell <tpa@zurich.ibm.com>
c38eba30 · Thomas Parnell · GitHub · e72ae80b · c38eba30
Unverified Commit c38eba30 authored Jul 10, 2024 by Thomas Parnell Committed by GitHub Jul 10, 2024
Hide whitespace changes
Inline Side-by-side

Showing with 1 addition and 1 deletion

vllm/model_executor/models/mlp_speculator.py vllm/model_executor/models/mlp_speculator.py +1 -1

No files found.
--- a/vllm/model_executor/models/mlp_speculator.py
+++ b/vllm/model_executor/models/mlp_speculator.py
@@ -110,7 +110,7 @@ class MLPSpeculator(nn.Module):
            ])
            self.head = nn.ModuleList([
-                nn.Linear(self.inner_dim, self.vocab_size, bias=False)
+                ParallelLMHead(self.vocab_size, self.inner_dim, bias=False)
                for _ in range(self.max_speculative_tokens)
            ])
            self.ln = nn.ModuleList([