[Bugfix] Fix getting vision features in Transformer Multimodal backend (#32933)

Signed-off-by: raushan <raushan@huggingface.co>

[Bugfix] Fix getting vision features in Transformer Multimodal backend (#32933)
Signed-off-by: raushan <raushan@huggingface.co>
d95d6507 · Raushan Turganbay · GitHub · 13d8746c · d95d6507
Unverified Commit d95d6507 authored Jan 23, 2026 by Raushan Turganbay Committed by GitHub Jan 23, 2026
Hide whitespace changes
Inline Side-by-side

Showing with 9 additions and 0 deletions

vllm/model_executor/models/transformers/multimodal.py vllm/model_executor/models/transformers/multimodal.py +9 -0

No files found.
--- a/vllm/model_executor/models/transformers/multimodal.py
+++ b/vllm/model_executor/models/transformers/multimodal.py
@@ -376,6 +376,15 @@ class MultiModalMixin(SupportsMultiModal, SupportsMRoPE):
                    pixel_values, **kwargs
                )
+            # Transformers `v5`, `self.get_image_features` returns a tuple
+            # containing the features and optionally attentions/hidden_states
+            # After v5 is settled, we can enable qwen3-vl with several outputs
+            # from `self.get_image_features`
+            if isinstance(vision_embeddings, tuple):
+                vision_embeddings = vision_embeddings[0]
+            elif isinstance(vision_embeddings, dict):
+                vision_embeddings = vision_embeddings.pooler_output
            if isinstance(vision_embeddings, torch.Tensor):
                if vision_embeddings.ndim == 2:
                    vision_embeddings = vision_embeddings.unsqueeze(0)