fix nn_moe args

86b5aefe · zhuwenwen · 1072b724 · 86b5aefe
Commit 86b5aefe authored Dec 25, 2025 by zhuwenwen
Hide whitespace changes
Inline Side-by-side

Showing with 4 additions and 0 deletions

vllm/model_executor/layers/fused_moe/unquantized_fused_moe_method.py ...executor/layers/fused_moe/unquantized_fused_moe_method.py +4 -0

No files found.
--- a/vllm/model_executor/layers/fused_moe/unquantized_fused_moe_method.py
+++ b/vllm/model_executor/layers/fused_moe/unquantized_fused_moe_method.py
@@ -271,11 +271,13 @@ class UnquantizedFusedMoEMethod(FusedMoEMethodBase, CustomOp):
        layer: "FusedMoE",  # type: ignore[name-defined] # noqa: F821
        x: torch.Tensor,
        router_logits: torch.Tensor,
+        use_nn_moe: bool | None = False,
    ) -> torch.Tensor | tuple[torch.Tensor, torch.Tensor]:
        return self.forward(
            layer=layer,
            x=x,
            router_logits=router_logits,
+            use_nn_moe=use_nn_moe,
        )

    def get_fused_moe_quant_config(
@@ -294,6 +296,7 @@ class UnquantizedFusedMoEMethod(FusedMoEMethodBase, CustomOp):
        layer: "FusedMoE",  # type: ignore[name-defined] # noqa: F821
        x: torch.Tensor,
        router_logits: torch.Tensor,
+        use_nn_moe: bool | None = False,
    ) -> torch.Tensor | tuple[torch.Tensor, torch.Tensor]:
        topk_weights, topk_ids, zero_expert_result = layer.select_experts(
            hidden_states=x,
@@ -334,6 +337,7 @@ class UnquantizedFusedMoEMethod(FusedMoEMethodBase, CustomOp):
                apply_router_weight_on_input=layer.apply_router_weight_on_input,
                global_num_experts=layer.global_num_experts,
                expert_map=layer.expert_map,
+                use_nn_moe=use_nn_moe,
            )

        if layer.zero_expert_num != 0 and layer.zero_expert_type is not None: