[Model Runner V2] Remove unused warmup_for_prefill method (#36762)

Signed-off-by: Woosuk Kwon <woosuk@inferact.ai>

[Model Runner V2] Remove unused warmup_for_prefill method (#36762)
Signed-off-by: Woosuk Kwon <woosuk@inferact.ai>
8ccbcda5 · Woosuk Kwon · GitHub · a9e532af · 8ccbcda5
Unverified Commit 8ccbcda5 authored Mar 11, 2026 by Woosuk Kwon Committed by GitHub Mar 11, 2026
Hide whitespace changes
Inline Side-by-side

Showing with 0 additions and 7 deletions

vllm/v1/worker/gpu/model_runner.py vllm/v1/worker/gpu/model_runner.py +0 -7

No files found.
--- a/vllm/v1/worker/gpu/model_runner.py
+++ b/vllm/v1/worker/gpu/model_runner.py
@@ -532,13 +532,6 @@ class GPUModelRunner(LoRAModelRunnerMixin):
        )
        return cuda_graph_size

-    def warmup_for_prefill(self) -> None:
-        # For FlashInfer, we would like to execute a dummy prefill run
-        # to trigger JIT compilation.
-        if all("FLASHINFER" in b.get_name() for b in self.attn_backends.values()):
-            self._dummy_run(self.max_num_tokens, skip_attn=False)
-            torch.accelerator.synchronize()
-
    def finish_requests(self, scheduler_output: SchedulerOutput) -> None:
        finished_req_ids = scheduler_output.finished_req_ids
        preempted_req_ids = scheduler_output.preempted_req_ids