[Models][Gemma4] Prevent GPU/CPU sync in `embed_input_ids` (#39234)

Signed-off-by: Lukas Geiger <lukas.geiger94@gmail.com>

[Models][Gemma4] Prevent GPU/CPU sync in `embed_input_ids` (#39234)
Signed-off-by: Lukas Geiger <lukas.geiger94@gmail.com>
b1dc87a0 · Lukas Geiger · GitHub · 79a5b632 · b1dc87a0
Unverified Commit b1dc87a0 authored Apr 17, 2026 by Lukas Geiger Committed by GitHub Apr 17, 2026
Show whitespace changes
Inline Side-by-side

Showing with 3 additions and 2 deletions

vllm/model_executor/models/gemma4_mm.py vllm/model_executor/models/gemma4_mm.py +3 -2

No files found.
--- a/vllm/model_executor/models/gemma4_mm.py
+++ b/vllm/model_executor/models/gemma4_mm.py
@@ -1254,9 +1254,10 @@ class Gemma4ForConditionalGeneration(
            # computation (using token_type_ids == 0 as text_mask).
            # Replicate this: map image token positions to token 0.
            if is_multimodal is not None:
-                is_multimodal = is_multimodal.to(input_ids.device)
                ple_input_ids = torch.where(
-                    is_multimodal, torch.zeros_like(input_ids), input_ids
+                    is_multimodal.to(input_ids.device, non_blocking=True),
+                    torch.zeros_like(input_ids),
+                    input_ids,
                )
            else:
                ple_input_ids = input_ids