Merge branch 'v0.9.2-dev_bugfix' into 'v0.9.2-dev'

bugfix: Fix the startup crash issue of the service when USE_FUSED_RMS_QUANT=1 See merge request dcutoolkit/deeplearing/vllm!344

Merge branch 'v0.9.2-dev_bugfix' into 'v0.9.2-dev'
bugfix: Fix the startup crash issue of the service when USE_FUSED_RMS_QUANT=1 See merge request dcutoolkit/deeplearing/vllm!344
fb39e61b · zhuwenwen · 155c8a13 · e6d32c6d · fb39e61b
Commit fb39e61b authored Jan 07, 2026 by zhuwenwen
Show whitespace changes
Inline Side-by-side

Showing with 2 additions and 2 deletions

vllm/model_executor/layers/fused_moe/layer.py vllm/model_executor/layers/fused_moe/layer.py +2 -2

No files found.
--- a/vllm/model_executor/layers/fused_moe/layer.py
+++ b/vllm/model_executor/layers/fused_moe/layer.py
@@ -1832,9 +1832,9 @@ def moe_forward(hidden_states: torch.Tensor, router_logits: torch.Tensor,
    self = forward_context.no_compile_layers[layer_name]
    assert self.quant_method is not None
    if envs.USE_FUSED_RMS_QUANT:
-        return self.forward_impl(hidden_states, router_logits, shared_output, i_q, i_s)
+        return self.forward_impl(hidden_states, router_logits, shared_output = shared_output, i_q = i_q, i_s = i_s)
    else:
-        return self.forward_impl(hidden_states, router_logits, shared_output)
+        return self.forward_impl(hidden_states, router_logits, shared_output = shared_output)