Merge branch 'v0.9.2-dev' into v0.9.2-dev-ds

42b06117 · zhuwenwen · b2d14ba3 · 48114bb1 · 42b06117 · 42b06117
Commit 42b06117 authored Sep 29, 2025 by zhuwenwen
Hide whitespace changes
Inline Side-by-side

Showing with 5 additions and 4 deletions

vllm/v1/request.py vllm/v1/request.py +1 -0

vllm/v1/worker/gpu_model_runner.py vllm/v1/worker/gpu_model_runner.py +4 -4

No files found.
--- a/vllm/v1/request.py
+++ b/vllm/v1/request.py
@@ -79,6 +79,7 @@ class Request:
        self._all_token_ids: list[int] = self.prompt_token_ids.copy()
        self.spec_token_ids: list[int] = []
        self.num_computed_tokens = 0
+        self.num_generated_token_ids = 0
        self.cache_salt: Optional[str] = cache_salt

        # Multi-modal related

--- a/vllm/v1/worker/gpu_model_runner.py
+++ b/vllm/v1/worker/gpu_model_runner.py
@@ -496,8 +496,8 @@ class GPUModelRunner(LoRAModelRunnerMixin):
                elif num_new_tokens > 0:
                    req_state.output_token_ids.extend(
                        new_token_ids[-num_new_tokens:])
-                if len(spec_token_ids) > 0:
-                    req_state.spec_token_ids = spec_token_ids
+            if len(spec_token_ids) > 0:
+                req_state.spec_token_ids = spec_token_ids

            # Update the block IDs.
            if not resumed_from_preemption:
@@ -528,10 +528,10 @@ class GPUModelRunner(LoRAModelRunnerMixin):
            if not is_last_rank:
                # Add new_token_ids to token_ids_cpu.
                start_token_index = num_computed_tokens
-                end_token_index = num_computed_tokens + len(new_token_ids)
+                end_token_index = num_computed_tokens + 1
                self.input_batch.token_ids_cpu[
                    req_index,
-                    start_token_index:end_token_index] = new_token_ids
+                    start_token_index:end_token_index] = new_token_ids[-1]
                self.input_batch.num_tokens_no_spec[
                    req_index] = end_token_index
                self.input_batch.num_tokens[req_index] = end_token_index