fix run error

b31c7251 · zhuwenwen · bdd33b3f · b31c7251 · b31c7251 · b31c7251
Commit b31c7251 authored Feb 03, 2026 by zhuwenwen
Showing with 10 additions and 4 deletions

vllm/config/model.py vllm/config/model.py +1 -0

vllm/config/speculative.py vllm/config/speculative.py +1 -1

vllm/model_executor/models/deepseek_v2.py vllm/model_executor/models/deepseek_v2.py +8 -3

No files found.
--- a/vllm/config/model.py
+++ b/vllm/config/model.py
@@ -912,6 +912,7 @@ class ModelConfig:
                # imports during override detection (e.g., MXFP4 imports Triton)
                "mxfp4",
                "cpu_awq",
+                "slimquant_marlin",
                "slimquant_w4a8_marlin",
                "slimquant_compressed_tensors_marlin",
            ]

--- a/vllm/config/speculative.py
+++ b/vllm/config/speculative.py
@@ -371,7 +371,7 @@ class SpeculativeConfig:
                    tokenizer_revision=self.target_model_config.tokenizer_revision,
                    spec_target_max_model_len=self.target_model_config.max_model_len,
                    quantization=self.quantization,
-                    enforce_eager=True if envs.VLLM_SPEC_DECODE_EAGER else self.target_model_config.enforce_eager,
+                    enforce_eager=self.target_model_config.enforce_eager,
                    max_logprobs=self.target_model_config.max_logprobs,
                    hf_overrides=SpeculativeConfig.hf_config_override,
                    config_format=self.target_model_config.config_format,

--- a/vllm/model_executor/models/deepseek_v2.py
+++ b/vllm/model_executor/models/deepseek_v2.py
@@ -263,6 +263,11 @@ class DeepseekV2MoE(nn.Module):
            prefix=f"{prefix}.gate",
        )
        if getattr(config, "topk_method", None) == "noaux_tc":
+            if envs.VLLM_ENABLE_MOE_FUSED_GATE:
+                # avoid moe_fused_gate precision error
+                self.gate.e_score_correction_bias = nn.Parameter(
+                torch.empty(config.n_routed_experts))
+            else:
                self.gate.e_score_correction_bias = nn.Parameter(
                    torch.empty(config.n_routed_experts, dtype=torch.float32)
                )