[Bugfix]Fix EP precision for Qwen3.5, Qwen3-Next (#39181)

Signed-off-by: Song Kai <songkai05@baidu.com>

[Bugfix]Fix EP precision for Qwen3.5, Qwen3-Next (#39181)
Signed-off-by: Song Kai <songkai05@baidu.com>
f3c7941e · Kai Song · GitHub · 3352bf8b · f3c7941e · f3c7941e
Unverified Commit f3c7941e authored Apr 09, 2026 by Kai Song Committed by GitHub Apr 09, 2026
Show whitespace changes
Inline Side-by-side

Showing with 4 additions and 0 deletions

vllm/model_executor/models/qwen2_moe.py vllm/model_executor/models/qwen2_moe.py +3 -0

vllm/model_executor/models/qwen3_next.py vllm/model_executor/models/qwen3_next.py +1 -0

No files found.
--- a/vllm/model_executor/models/qwen2_moe.py
+++ b/vllm/model_executor/models/qwen2_moe.py
@@ -80,6 +80,7 @@ class Qwen2MoeMLP(nn.Module):
        quant_config: QuantizationConfig | None = None,
        reduce_results: bool = True,
        expert_gate: torch.nn.Linear | None = None,
+        is_sequence_parallel: bool = False,
        prefix: str = "",
    ) -> None:
        super().__init__()
@@ -88,6 +89,7 @@ class Qwen2MoeMLP(nn.Module):
            [intermediate_size] * 2,
            bias=False,
            quant_config=quant_config,
+            disable_tp=is_sequence_parallel,
            prefix=f"{prefix}.gate_up_proj",
        )
        self.down_proj = RowParallelLinear(
@@ -96,6 +98,7 @@ class Qwen2MoeMLP(nn.Module):
            bias=False,
            quant_config=quant_config,
            reduce_results=reduce_results,
+            disable_tp=is_sequence_parallel,
            prefix=f"{prefix}.down_proj",
        )
        if hidden_act != "silu":

--- a/vllm/model_executor/models/qwen3_next.py
+++ b/vllm/model_executor/models/qwen3_next.py
@@ -140,6 +140,7 @@ class Qwen3NextSparseMoeBlock(nn.Module):
                quant_config=quant_config,
                reduce_results=False,
                expert_gate=self.shared_expert_gate,
+                is_sequence_parallel=self.is_sequence_parallel,
                prefix=f"{prefix}.shared_expert",
            )
        else: