[Model] Switch to Fused RMS norm in Qwen2.5_VL model. (#22184)

Signed-off-by: kf <kuanfu.liu@embeddedllm.com> Signed-off-by: tjtanaavllm <tunjian.tan@amd.com> Signed-off-by: vllmellm <vllm.ellm@embeddedllm.com> Co-authored-by: kf <kuanfu.liu@embeddedllm.com>

[Model] Switch to Fused RMS norm in Qwen2.5_VL model. (#22184)
Signed-off-by: kf <kuanfu.liu@embeddedllm.com> Signed-off-by: tjtanaavllm <tunjian.tan@amd.com> Signed-off-by: vllmellm <vllm.ellm@embeddedllm.com> Co-authored-by: kf <kuanfu.liu@embeddedllm.com>
cbc8457b · vllmellm · GitHub · 4d4297e8 · cbc8457b
Unverified Commit cbc8457b authored Aug 07, 2025 by vllmellm Committed by GitHub Aug 06, 2025
Hide whitespace changes
Inline Side-by-side

Showing with 7 additions and 7 deletions

vllm/model_executor/models/qwen2_5_vl.py vllm/model_executor/models/qwen2_5_vl.py +7 -7

No files found.
--- a/vllm/model_executor/models/qwen2_5_vl.py
+++ b/vllm/model_executor/models/qwen2_5_vl.py
@@ -396,13 +396,13 @@ class Qwen2_5_VisionBlock(nn.Module):
            max_seqlen: Optional[int] = None,  # Only used for Flash Attention
            seqlens: Optional[list[int]] = None,  # Only used for xFormers
    ) -> torch.Tensor:
-        x = x + self.attn(self.norm1(x),
-                          cu_seqlens=cu_seqlens,
-                          rotary_pos_emb=rotary_pos_emb,
-                          max_seqlen=max_seqlen,
-                          seqlens=seqlens)
-
-        x = x + self.mlp(self.norm2(x))
+        x_attn = self.attn(self.norm1(x),
+                           cu_seqlens=cu_seqlens,
+                           rotary_pos_emb=rotary_pos_emb,
+                           max_seqlen=max_seqlen,
+                           seqlens=seqlens)
+        x_fused_norm, residual = self.norm2(x, residual=x_attn)
+        x = residual + self.mlp(x_fused_norm)
        return x