[Model Runner V2] Fix unintended CPU-GPU sync in make_dummy (#34667)

Signed-off-by: Woosuk Kwon <woosuk@inferact.ai>

[Model Runner V2] Fix unintended CPU-GPU sync in make_dummy (#34667)
Signed-off-by: Woosuk Kwon <woosuk@inferact.ai>
d74278fb · Woosuk Kwon · GitHub · b68fd899 · d74278fb
Unverified Commit d74278fb authored Feb 16, 2026 by Woosuk Kwon Committed by GitHub Feb 16, 2026
Hide whitespace changes
Inline Side-by-side

Showing with 1 addition and 1 deletion

vllm/v1/worker/gpu/input_batch.py vllm/v1/worker/gpu/input_batch.py +1 -1

No files found.
--- a/vllm/v1/worker/gpu/input_batch.py
+++ b/vllm/v1/worker/gpu/input_batch.py
@@ -108,7 +108,7 @@ class InputBatch:
        query_start_loc_np = np.empty(num_reqs + 1, dtype=np.int32)
        query_start_loc_np[0] = 0
        np.cumsum(num_scheduled_tokens, out=query_start_loc_np[1:])
-        input_buffers.query_start_loc[0] = 0
+        input_buffers.query_start_loc[:1] = 0
        torch.cumsum(
            seq_lens, dim=0, out=input_buffers.query_start_loc[1 : num_reqs + 1]
        )