[BugFix][Spec Decode] Fix spec token ids in model runner (#20530)

Signed-off-by: Woosuk Kwon <woosuk.kwon@berkeley.edu>

[BugFix][Spec Decode] Fix spec token ids in model runner (#20530)
Signed-off-by: Woosuk Kwon <woosuk.kwon@berkeley.edu>
9528e3a0 · Woosuk Kwon · GitHub · 9fb52e52 · 9528e3a0
Unverified Commit 9528e3a0 authored Jul 06, 2025 by Woosuk Kwon Committed by GitHub Jul 06, 2025
Show whitespace changes
Inline Side-by-side

Showing with 12 additions and 11 deletions

vllm/v1/worker/gpu_model_runner.py vllm/v1/worker/gpu_model_runner.py +12 -11

No files found.
--- a/vllm/v1/worker/gpu_model_runner.py
+++ b/vllm/v1/worker/gpu_model_runner.py
@@ -528,18 +528,19 @@ class GPUModelRunner(LoRAModelRunnerMixin):
                    start_token_index:end_token_index] = new_token_ids
                self.input_batch.num_tokens_no_spec[
                    req_index] = end_token_index
+                self.input_batch.num_tokens[req_index] = end_token_index
            # Add spec_token_ids to token_ids_cpu.
            spec_token_ids = (
-                    scheduler_output.scheduled_spec_decode_tokens.get(
+                scheduler_output.scheduled_spec_decode_tokens.get(req_id, ()))
-                        req_id, ()))
            if spec_token_ids:
-                    start_index = end_token_index
+                num_spec_tokens = len(spec_token_ids)
-                    end_token_index += len(spec_token_ids)
+                start_index = self.input_batch.num_tokens_no_spec[req_index]
+                end_token_index = start_index + num_spec_tokens
                self.input_batch.token_ids_cpu[
-                        req_index,
+                    req_index, start_index:end_token_index] = spec_token_ids
-                        start_index:end_token_index] = spec_token_ids
                # NOTE(woosuk): `num_tokens` here may include spec tokens.
-                self.input_batch.num_tokens[req_index] = end_token_index
+                self.input_batch.num_tokens[req_index] += num_spec_tokens
        # Add the new or resumed requests to the persistent batch.
        # The smaller empty indices are filled first.