bugfix: Fix the startup crash issue of the service when USE_FUSED_RMS_QUANT=1

e6d32c6d · wanglong3 · 03ca39bd · e6d32c6d
Commit e6d32c6d authored Jan 06, 2026 by wanglong3
Show whitespace changes
Inline Side-by-side

Showing with 2 additions and 2 deletions

vllm/model_executor/layers/fused_moe/layer.py vllm/model_executor/layers/fused_moe/layer.py +2 -2

No files found.
--- a/vllm/model_executor/layers/fused_moe/layer.py
+++ b/vllm/model_executor/layers/fused_moe/layer.py
@@ -1832,9 +1832,9 @@ def moe_forward(hidden_states: torch.Tensor, router_logits: torch.Tensor,
    self = forward_context.no_compile_layers[layer_name]
    assert self.quant_method is not None
    if envs.USE_FUSED_RMS_QUANT:
-        return self.forward_impl(hidden_states, router_logits, shared_output, i_q, i_s)
+        return self.forward_impl(hidden_states, router_logits, shared_output = shared_output, i_q = i_q, i_s = i_s)
    else:
-        return self.forward_impl(hidden_states, router_logits, shared_output)
+        return self.forward_impl(hidden_states, router_logits, shared_output = shared_output)