remove redundant routed_scaling_factor

a02a1c83 · zhuwenwen · a053add9 · a02a1c83 · a02a1c83 · a02a1c83
Commit a02a1c83 authored Sep 11, 2025 by zhuwenwen
4 changed files
--- a/vllm/model_executor/layers/quantization/compressed_tensors/compressed_tensors_moe.py
+++ b/vllm/model_executor/layers/quantization/compressed_tensors/compressed_tensors_moe.py
@@ -838,7 +838,6 @@ class CompressedTensorsW8A8Fp8MoEMethod(CompressedTensorsMoEMethod):
        activation: str = "silu",
        enable_eplb: bool = False,
        use_nn_moe: Optional[bool] = False,
-        routed_scaling_factor: Optional[float] = None,
        use_fused_gate: Optional[bool] = False,
        expert_load_view: Optional[torch.Tensor] = None,
        logical_to_physical_map: Optional[torch.Tensor] = None,
@@ -1112,7 +1111,6 @@ class CompressedTensorsW8A8Int8MoEMethod(CompressedTensorsMoEMethod):
        activation: str = "silu",
        enable_eplb: bool = False,
        use_nn_moe: Optional[bool] = False,
-        routed_scaling_factor: Optional[float] = None,
        use_fused_gate: Optional[bool] = False,
        expert_load_view: Optional[torch.Tensor] = None,
        logical_to_physical_map: Optional[torch.Tensor] = None,

--- a/vllm/model_executor/layers/quantization/moe_wna16.py
+++ b/vllm/model_executor/layers/quantization/moe_wna16.py
@@ -348,7 +348,6 @@ class MoeWNA16Method(FusedMoEMethodBase):
        logical_to_physical_map: Optional[torch.Tensor] = None,
        logical_replica_count: Optional[torch.Tensor] = None,
        use_nn_moe: Optional[bool] = False,
-        routed_scaling_factor: Optional[float] = None,
        use_fused_gate: Optional[bool] = False,
    ) -> torch.Tensor:
        assert self.fused_experts is None
@@ -370,7 +369,6 @@ class MoeWNA16Method(FusedMoEMethodBase):
            routed_scaling_factor=routed_scaling_factor,
            e_score_correction_bias=e_score_correction_bias,
            indices_type=self.topk_indices_dtype,
-            routed_scaling_factor=routed_scaling_factor,
            use_fused_gate=use_fused_gate)

        weight_bits = self.quant_config.weight_bits

--- a/vllm/model_executor/models/deepseek_v2.py
+++ b/vllm/model_executor/models/deepseek_v2.py
@@ -170,8 +170,7 @@ class DeepseekV2MoE(nn.Module):
            routed_scaling_factor=self.routed_scaling_factor,
            e_score_correction_bias=self.gate.e_score_correction_bias,
            enable_eplb=self.enable_eplb,
-            num_redundant_experts=self.n_redundant_experts,
-            routed_scaling_factor=self.routed_scaling_factor)
+            num_redundant_experts=self.n_redundant_experts)

        if config.n_shared_experts is not None:
            intermediate_size = (config.moe_intermediate_size *

--- a/vllm/model_executor/models/deepseek_v3.py
+++ b/vllm/model_executor/models/deepseek_v3.py
@@ -104,7 +104,6 @@ class DeepseekV3MoE(nn.Module):
        self.tp_size = get_tensor_model_parallel_world_size()
        self.routed_scaling_factor = config.routed_scaling_factor
        self.n_shared_experts = config.n_shared_experts
-        self.routed_scaling_factor = config.routed_scaling_factor
        if self.tp_size > config.n_routed_experts:
            raise ValueError(
                f"Tensor parallel size {self.tp_size} is greater than "