Merge branch 'v0.9.2-dev-fix-pp-preempt' into 'v0.9.2-dev'

fix: 修复pp资源抢占bug See merge request dcutoolkit/deeplearing/vllm!402

Merge branch 'v0.9.2-dev-fix-pp-preempt' into 'v0.9.2-dev'
fix: 修复pp资源抢占bug See merge request dcutoolkit/deeplearing/vllm!402
d94e0cec · zhuwenwen · 3a58da2c · cb7d90a7 · d94e0cec
Commit d94e0cec authored Feb 04, 2026 by zhuwenwen
Hide whitespace changes
Inline Side-by-side

Showing with 25 additions and 12 deletions

vllm/v1/core/sched/scheduler.py vllm/v1/core/sched/scheduler.py +25 -12

No files found.
--- a/vllm/v1/core/sched/scheduler.py
+++ b/vllm/v1/core/sched/scheduler.py
@@ -281,20 +281,27 @@ class Scheduler(SchedulerInterface):
                    num_draft_tokens=num_draft_tokens,
                    num_lookahead_tokens=self.num_lookahead_tokens)
                if new_blocks is None:
-                    # The request cannot be scheduled.
-                    # Preempt the lowest-priority request.
-                    if self.policy == SchedulingPolicy.PRIORITY:
-                        preempted_req = max(
-                            self.running,
-                            key=lambda r: (r.priority, r.arrival_time),
-                        )
+                    if new_blocks is None:
+                        if self.use_pp:
+                            preemptable_reqs = [r for r in self.running if
+                                                r.num_tokens_with_spec != r.num_computed_tokens]
+                        else:
+                            preemptable_reqs = self.running
+                        # The request cannot be scheduled.
+                        # Preempt the lowest-priority request.
+                        if self.policy == SchedulingPolicy.PRIORITY:
+                            preempted_req = max(
+                                preemptable_reqs,
+                                key=lambda r: (r.priority, r.arrival_time),
+                            )
+                        else:
+                            preempted_req = preemptable_reqs[-1]
                        self.running.remove(preempted_req)
-                    else:
-                        preempted_req = self.running.pop()

                    self.kv_cache_manager.free(preempted_req)
                    preempted_req.status = RequestStatus.PREEMPTED
                    preempted_req.num_computed_tokens = 0
+                    preempted_req.spec_token_ids = []
                    if self.log_stats:
                        preempted_req.record_event(
                            EngineCoreEventType.PREEMPTED, scheduled_timestamp)
@@ -901,20 +908,26 @@ class Scheduler(SchedulerInterface):
                        num_draft_tokens=num_draft_tokens,
                        num_lookahead_tokens=self.num_lookahead_tokens)
                    if new_blocks is None:
+                        if self.use_pp:
+                            preemptable_reqs = [r for r in self.running if
+                                                r.num_tokens_with_spec != r.num_computed_tokens]
+                        else:
+                            preemptable_reqs = self.running
                        # The request cannot be scheduled.
                        # Preempt the lowest-priority request.
                        if self.policy == SchedulingPolicy.PRIORITY:
                            preempted_req = max(
-                                self.running,
+                                preemptable_reqs,
                                key=lambda r: (r.priority, r.arrival_time),
                            )
-                            self.running.remove(preempted_req)
                        else:
-                            preempted_req = self.running.pop()
+                            preempted_req = preemptable_reqs[-1]
+                        self.running.remove(preempted_req)

                        self.kv_cache_manager.free(preempted_req)
                        preempted_req.status = RequestStatus.PREEMPTED
                        preempted_req.num_computed_tokens = 0
+                        preempted_req.spec_token_ids = []
                        if self.log_stats:
                            preempted_req.record_event(
                                EngineCoreEventType.PREEMPTED, scheduled_timestamp)