[V1] Optimize the overhead of rewinding (#14905)

Signed-off-by: Woosuk Kwon <woosuk.kwon@berkeley.edu>

[V1] Optimize the overhead of rewinding (#14905)
Signed-off-by: Woosuk Kwon <woosuk.kwon@berkeley.edu>
faa02757 · Woosuk Kwon · GitHub · 8a5a9b70 · faa02757
Unverified Commit faa02757 authored Mar 16, 2025 by Woosuk Kwon Committed by GitHub Mar 16, 2025
Show whitespace changes
Inline Side-by-side

Showing with 5 additions and 6 deletions

vllm/v1/worker/gpu_model_runner.py vllm/v1/worker/gpu_model_runner.py +5 -6

No files found.
--- a/vllm/v1/worker/gpu_model_runner.py
+++ b/vllm/v1/worker/gpu_model_runner.py
@@ -1032,15 +1032,14 @@ class GPUModelRunner(LoRAModelRunnerMixin):
        # TODO(woosuk): The following loop can be slow since it iterates over
        # the requests one by one. Optimize.
-        for i, req_id in enumerate(self.input_batch.req_ids):
+        for i, generator in self.input_batch.generators.items():
+            req_id = self.input_batch.req_ids[i]
            req_state = self.requests[req_id]
            seq_len = (req_state.num_computed_tokens +
                       scheduler_output.num_scheduled_tokens[req_id])
            if seq_len < req_state.num_tokens:
-                # Ignore the sampled token.
+                # Ignore the sampled token for partial prefills.
                # Rewind the generator state as if the token was not sampled.
-                generator = self.input_batch.generators.get(i)
-                if generator is not None:
                # This relies on cuda-specific torch-internal impl details
                generator.set_offset(generator.get_offset() - 4)