[Bugfix] Fix overallocation in MM profiling (#29386)

Signed-off-by: Roger Wang <hey@rogerw.io>

[Bugfix] Fix overallocation in MM profiling (#29386)
Signed-off-by: Roger Wang <hey@rogerw.io>
c2c661af · Roger Wang · GitHub · 798e87db · c2c661af
Unverified Commit c2c661af authored Nov 25, 2025 by Roger Wang Committed by GitHub Nov 25, 2025
Hide whitespace changes
Inline Side-by-side

Showing with 8 additions and 4 deletions

vllm/v1/worker/gpu_model_runner.py vllm/v1/worker/gpu_model_runner.py +8 -4

No files found.
--- a/vllm/v1/worker/gpu_model_runner.py
+++ b/vllm/v1/worker/gpu_model_runner.py
@@ -4245,14 +4245,18 @@ class GPUModelRunner(
                    # NOTE: This happens when encoder cache needs to store
                    # the embeddings that encoder outputs are scattered onto.
                    # In this case we create dummy embeddings of size
-                    # (encode_budget, hidden_size) and scatter encoder
+                    # (max_tokens_for_modality, hidden_size) and scatter
-                    # output into it.
+                    # encoder output into it.
                    encoder_output_shape = dummy_encoder_outputs[0].shape
-                    if encoder_output_shape[0] < encoder_budget:
+                    max_mm_tokens_per_item = mm_budget.max_tokens_by_modality[
+                        dummy_modality
+                    ]
+                    if encoder_output_shape[0] < max_mm_tokens_per_item:
+                        encoder_hidden_size = encoder_output_shape[-1]
                        expanded_outputs = []
                        for output in dummy_encoder_outputs:
                            expanded = output.new_zeros(
-                                (encoder_budget, encoder_output_shape[-1])
+                                (max_mm_tokens_per_item, encoder_hidden_size)
                            )
                            num_tokens = output.shape[0]
                            expanded[:num_tokens].copy_(output)