[ROCm] [Bugfix] `compute_attn_mask_seqlen` for qwen3 omni (#29974)

Signed-off-by: tjtanaa <tunjian.tan@embeddedllm.com>

[ROCm] [Bugfix] `compute_attn_mask_seqlen` for qwen3 omni (#29974)
Signed-off-by: tjtanaa <tunjian.tan@embeddedllm.com>
3f1b0373 · TJian · GitHub · 9aa33a74 · 3f1b0373
Unverified Commit 3f1b0373 authored Dec 04, 2025 by TJian Committed by GitHub Dec 04, 2025
Show whitespace changes
Inline Side-by-side

Showing with 4 additions and 1 deletion

vllm/model_executor/models/qwen3_omni_moe_thinker.py vllm/model_executor/models/qwen3_omni_moe_thinker.py +4 -1

No files found.
--- a/vllm/model_executor/models/qwen3_omni_moe_thinker.py
+++ b/vllm/model_executor/models/qwen3_omni_moe_thinker.py
@@ -494,7 +494,10 @@ class Qwen3Omni_VisionTransformer(nn.Module):
        cu_seqlens: torch.Tensor,
    ) -> torch.Tensor:
        max_seqlen = torch.zeros([], device=cu_seqlens.device)
-        if self.attn_backend == AttentionBackendEnum.FLASH_ATTN:
+        if self.attn_backend in {
+            AttentionBackendEnum.FLASH_ATTN,
+            AttentionBackendEnum.ROCM_AITER_FA,
+        }:
            max_seqlen = (cu_seqlens[1:] - cu_seqlens[:-1]).max()
        return max_seqlen