需改mtp 16卡性能差问题

5e77e9b1 · xiabo · 3812059e · 5e77e9b1 · 5e77e9b1
Commit 5e77e9b1 authored Apr 29, 2025 by xiabo
Show whitespace changes
Inline Side-by-side

Showing with 4 additions and 1 deletion

vllm/spec_decode/metrics.py vllm/spec_decode/metrics.py +2 -0

vllm/spec_decode/spec_decode_worker.py vllm/spec_decode/spec_decode_worker.py +2 -1

No files found.
--- a/vllm/spec_decode/metrics.py
+++ b/vllm/spec_decode/metrics.py
@@ -57,6 +57,7 @@ class AsyncMetricsCollector:

    def __init__(self,
                 spec_decode_sampler: SpecDecodeBaseSampler,
+                 rank: int,
                 timer: Optional[Timer] = None,
                 collect_interval_s: float = 5.0):
        self.spec_decode_sampler = spec_decode_sampler
@@ -70,6 +71,7 @@ class AsyncMetricsCollector:
        self._in_flight_copy: Optional[torch.cuda.Event] = None

        pin_memory = is_pin_memory_available()
+        torch.cuda.set_device(rank)
        self._aggregate_num_accepted_tokens = torch.tensor(
            0, dtype=torch.long, device="cpu", pin_memory=pin_memory)
        self._aggregate_num_emitted_tokens = torch.tensor(

--- a/vllm/spec_decode/spec_decode_worker.py
+++ b/vllm/spec_decode/spec_decode_worker.py
@@ -315,7 +315,8 @@ class SpecDecodeWorker(LoraNotSupportedWorkerBase):
        self.spec_decode_sampler = spec_decode_sampler
        self._allow_zero_draft_token_step = allow_zero_draft_token_step
        self._metrics = AsyncMetricsCollector(
-            self.spec_decode_sampler
+            self.spec_decode_sampler,
+            self.rank
        ) if metrics_collector is None else metrics_collector
        # Tracks the sequence IDs that received a bonus token ID in
        # their last forward pass. Needed only if KV cache is being