Merge branch 'v0.15.1-dev' of http://10.16.6.30/dcutoolkit/deeplearing/vllm into v0.15.1-dev

ef8dd155 · zhuwenwen · d71496bf · c9733a54 · ef8dd155 · ef8dd155
Commit ef8dd155 authored Mar 03, 2026 by zhuwenwen
Hide whitespace changes
Inline Side-by-side

Showing with 2 additions and 2 deletions

vllm/model_executor/models/qwen3.py vllm/model_executor/models/qwen3.py +1 -1

vllm/model_executor/models/qwen3_moe.py vllm/model_executor/models/qwen3_moe.py +1 -1

No files found.
--- a/vllm/model_executor/models/qwen3.py
+++ b/vllm/model_executor/models/qwen3.py
@@ -196,7 +196,7 @@ class Qwen3Attention(nn.Module):
    ) -> torch.Tensor:
        qkv, _ = self.qkv_proj(hidden_states)
        q, k, v = qkv.split([self.q_size, self.kv_size, self.kv_size], dim=-1)
-        if envs.VLLM_USE_FUSED_RMS_ROPE:
+        if envs.VLLM_USE_FUSED_RMS_ROPE and positions.ndim == 1:
            # Fused RMSNorm + RoPE path through custom op.
            cos_sin_cache = self.rotary_emb.cos_sin_cache
            if (cos_sin_cache.device != q.device

--- a/vllm/model_executor/models/qwen3_moe.py
+++ b/vllm/model_executor/models/qwen3_moe.py
@@ -444,9 +444,9 @@ class Qwen3MoeAttention(nn.Module):
            mrope_interleaved,
            q_weight,
            k_weight,
-            epsilon,
            q_residual,
            k_residual,
+            epsilon,
        )

    def rms_mrope_fuse_fake(