fix(qwen3): 修复VL场景fused RoPE分支条件，并更正qwen3_moe中rms_mrope参数顺序

02b0d6ba · laibao · 1ce0a9a2 · 02b0d6ba · 02b0d6ba
Commit 02b0d6ba authored Mar 02, 2026 by laibao
Hide whitespace changes
Inline Side-by-side

Showing with 2 additions and 2 deletions

vllm/model_executor/models/qwen3.py vllm/model_executor/models/qwen3.py +1 -1

vllm/model_executor/models/qwen3_moe.py vllm/model_executor/models/qwen3_moe.py +1 -1

No files found.
--- a/vllm/model_executor/models/qwen3.py
+++ b/vllm/model_executor/models/qwen3.py
@@ -196,7 +196,7 @@ class Qwen3Attention(nn.Module):
    ) -> torch.Tensor:
        qkv, _ = self.qkv_proj(hidden_states)
        q, k, v = qkv.split([self.q_size, self.kv_size, self.kv_size], dim=-1)
-        if envs.VLLM_USE_FUSED_RMS_ROPE:
+        if envs.VLLM_USE_FUSED_RMS_ROPE and positions.ndim == 1:
            # Fused RMSNorm + RoPE path through custom op.
            cos_sin_cache = self.rotary_emb.cos_sin_cache
            if (cos_sin_cache.device != q.device

--- a/vllm/model_executor/models/qwen3_moe.py
+++ b/vllm/model_executor/models/qwen3_moe.py
@@ -444,9 +444,9 @@ class Qwen3MoeAttention(nn.Module):
            mrope_interleaved,
            q_weight,
            k_weight,
-            epsilon,
            q_residual,
            k_residual,
+            epsilon,
        )

    def rms_mrope_fuse_fake(