[Bugfix][V1][PP] Only warmup sampler at last PP rank (#14643)

Signed-off-by: Cody Yu <hao.yu.cody@gmail.com>

[Bugfix][V1][PP] Only warmup sampler at last PP rank (#14643)
Signed-off-by: Cody Yu <hao.yu.cody@gmail.com>
b706d898 · Cody Yu · GitHub · 863d315c · b706d898
Unverified Commit b706d898 authored Mar 11, 2025 by Cody Yu Committed by GitHub Mar 11, 2025
Show whitespace changes
Inline Side-by-side

Showing with 17 additions and 14 deletions

vllm/v1/worker/gpu_worker.py vllm/v1/worker/gpu_worker.py +17 -14

No files found.
--- a/vllm/v1/worker/gpu_worker.py
+++ b/vllm/v1/worker/gpu_worker.py
@@ -14,6 +14,7 @@ from vllm.device_allocator.cumem import CuMemAllocator
 from vllm.distributed import (ensure_model_parallel_initialized,
                              init_distributed_environment,
                              set_custom_all_reduce)
+from vllm.distributed.parallel_state import get_pp_group
 from vllm.logger import init_logger
 from vllm.lora.request import LoRARequest
 from vllm.model_executor import set_random_seed
@@ -219,8 +220,10 @@ class Worker(WorkerBase):
        # fragmentation issue.
        # NOTE: This is called after `capture_model` on purpose to prevent
        # memory buffers from being cleared by `torch.cuda.empty_cache`.
+        if get_pp_group().is_last_rank:
            try:
-            max_num_reqs = min(self.scheduler_config.max_num_seqs,
+                max_num_reqs = min(
+                    self.scheduler_config.max_num_seqs,
                    self.scheduler_config.max_num_batched_tokens)
                self.model_runner._dummy_sampler_run(
                    hidden_states=self.model_runner._dummy_run(