[Model Runner V2] Remove propose_draft method (#35070)

Signed-off-by: Woosuk Kwon <woosuk@inferact.ai>

[Model Runner V2] Remove propose_draft method (#35070)
Signed-off-by: Woosuk Kwon <woosuk@inferact.ai>
c645e9a2 · Woosuk Kwon · GitHub · 944ffb59 · c645e9a2
Unverified Commit c645e9a2 authored Feb 22, 2026 by Woosuk Kwon Committed by GitHub Feb 22, 2026
Show whitespace changes
Inline Side-by-side

Showing with 5 additions and 24 deletions

vllm/v1/worker/gpu/model_runner.py vllm/v1/worker/gpu/model_runner.py +5 -24

No files found.
--- a/vllm/v1/worker/gpu/model_runner.py
+++ b/vllm/v1/worker/gpu/model_runner.py
@@ -858,29 +858,6 @@ class GPUModelRunner(LoRAModelRunnerMixin):
            computed_prefill, self.req_states.prefill_len.np, out=computed_prefill
        )

-    @torch.inference_mode()
-    def propose_draft(
-        self,
-        input_batch: InputBatch,
-        last_hidden_states: torch.Tensor,
-        aux_hidden_states: list[torch.Tensor] | None,
-        num_sampled: torch.Tensor,
-        num_rejected: torch.Tensor,
-    ) -> torch.Tensor:
-        assert self.speculator is not None
-        draft_tokens = self.speculator.propose(
-            input_batch,
-            last_hidden_states,
-            aux_hidden_states,
-            num_sampled,
-            num_rejected,
-            self.req_states.last_sampled_tokens,
-            self.req_states.next_prefill_tokens,
-            self.sampler.sampling_states.temperature.gpu,
-            self.sampler.sampling_states.seeds.gpu,
-        )
-        return draft_tokens
-
    @torch.inference_mode()
    def execute_model(
        self,
@@ -1113,12 +1090,16 @@ class GPUModelRunner(LoRAModelRunnerMixin):
            input_batch, sampler_output.sampled_token_ids, num_sampled, num_rejected
        )
        if self.speculator is not None:
-            draft_tokens = self.propose_draft(
+            draft_tokens = self.speculator.propose(
                input_batch,
                hidden_states,
                aux_hidden_states,
                num_sampled,
                num_rejected,
+                self.req_states.last_sampled_tokens,
+                self.req_states.next_prefill_tokens,
+                self.sampler.sampling_states.temperature.gpu,
+                self.sampler.sampling_states.seeds.gpu,
            )
            self.req_states.draft_tokens[input_batch.idx_mapping] = draft_tokens
            self.draft_tokens_handler.set_draft_tokens(input_batch, draft_tokens)