invoke flash_attn in the Qwen2AudioEncoder (transformers)

3a45ab97 · caihl · 9ce8b1a3 · 3a45ab97
Commit 3a45ab97 authored Mar 17, 2026 by caihl
Show whitespace changes
Inline Side-by-side

Showing with 5 additions and 1 deletion

vllm/model_executor/models/qwen2_audio.py vllm/model_executor/models/qwen2_audio.py +5 -1

No files found.
--- a/vllm/model_executor/models/qwen2_audio.py
+++ b/vllm/model_executor/models/qwen2_audio.py
@@ -337,6 +337,7 @@ class Qwen2AudioForConditionalGeneration(nn.Module, SupportsMultiModal, Supports
        self.quant_config = quant_config
        with self._mark_tower_model(vllm_config, "audio"):
+            config.audio_config._attn_implementation = "flash_attention_2"
            self.audio_tower = Qwen2AudioEncoder(config.audio_config)
            self.multi_modal_projector = Qwen2AudioMultiModalProjector(
                config.audio_config.d_model, config.text_config.hidden_size
@@ -422,6 +423,9 @@ class Qwen2AudioForConditionalGeneration(nn.Module, SupportsMultiModal, Supports
        )
        audio_attention_mask[audio_attention_mask_] = float("-inf")
+        attn_impl = getattr(self.audio_tower.config, "_attn_implementation", "eager")
+        if attn_impl in ("flash_attention_2", "flash_attention_3"):
+            audio_attention_mask = (~padding_mask).to(dtype=torch.int32)
        audio_outputs = self.audio_tower(
            input_features, attention_mask=audio_attention_mask
        )