[Bugfix] Allow shared_experts skip quantization for DeepSeekV2/V3 (#14100)

Signed-off-by: mgoin <mgoin64@gmail.com>

[Bugfix] Allow shared_experts skip quantization for DeepSeekV2/V3 (#14100)
Signed-off-by: mgoin <mgoin64@gmail.com>
2b04c209 · Michael Goin · GitHub · ae122b1c · 2b04c209
Unverified Commit 2b04c209 authored Mar 03, 2025 by Michael Goin Committed by GitHub Mar 03, 2025
Hide whitespace changes
Inline Side-by-side

Showing with 1 addition and 0 deletions

vllm/model_executor/models/deepseek_v2.py vllm/model_executor/models/deepseek_v2.py +1 -0

No files found.
--- a/vllm/model_executor/models/deepseek_v2.py
+++ b/vllm/model_executor/models/deepseek_v2.py
@@ -145,6 +145,7 @@ class DeepseekV2MoE(nn.Module):
                hidden_act=config.hidden_act,
                quant_config=quant_config,
                reduce_results=False,
+                prefix=f"{prefix}.shared_experts",
            )

    def forward(self, hidden_states: torch.Tensor) -> torch.Tensor: