[Multimodal] Improve max video embedding length estimation in V1 (#24312)

Signed-off-by: Roger Wang <hey@rogerw.me> Co-authored-by: Roger Wang <hey@rogerw.me>

[Multimodal] Improve max video embedding length estimation in V1 (#24312)
Signed-off-by: Roger Wang <hey@rogerw.me> Co-authored-by: Roger Wang <hey@rogerw.me>
eddaafc1 · Roger Wang · GitHub · 305a1cc0 · eddaafc1 · eddaafc1
Unverified Commit eddaafc1 authored Sep 06, 2025 by Roger Wang Committed by GitHub Sep 06, 2025
Showing with 2 additions and 8 deletions

vllm/model_executor/models/llava_onevision.py vllm/model_executor/models/llava_onevision.py +1 -4

vllm/model_executor/models/qwen2_vl.py vllm/model_executor/models/qwen2_vl.py +1 -4

No files found.
--- a/vllm/model_executor/models/llava_onevision.py
+++ b/vllm/model_executor/models/llava_onevision.py
@@ -216,12 +216,9 @@ class LlavaOnevisionProcessingInfo(LlavaNextProcessingInfo):
        seq_len: int,
        mm_counts: Mapping[str, int],
    ) -> int:
-        max_images = mm_counts.get("image", 0)
        max_videos = mm_counts.get("video", 0)
-        max_image_tokens = self.get_max_image_tokens() * max_images
+        max_total_frames = self._get_max_video_frames(seq_len)
-        max_total_frames = self._get_max_video_frames(seq_len -
-                                                      max_image_tokens)
        max_frames_per_video = min(max_total_frames // max(max_videos, 1),
                                   _MAX_FRAMES_PER_VIDEO)

--- a/vllm/model_executor/models/qwen2_vl.py
+++ b/vllm/model_executor/models/qwen2_vl.py
@@ -915,12 +915,9 @@ class Qwen2VLProcessingInfo(BaseProcessingInfo):
        seq_len: int,
        mm_counts: Mapping[str, int],
    ) -> int:
-        max_images = mm_counts.get("image", 0)
        max_videos = mm_counts.get("video", 0)
-        max_image_tokens = self.get_max_image_tokens() * max_images
+        max_total_frames = self._get_max_video_frames(seq_len)
-        max_total_frames = self._get_max_video_frames(seq_len -
-                                                      max_image_tokens)
        max_frames_per_video = min(max_total_frames // max(max_videos, 1),
                                   _MAX_FRAMES_PER_VIDEO)