[fix]修复开启并行解码后，在极端测试情况下，由于设置了speculative-disable-by-batch-size导致不跑并行解码导致previo...

[fix]修复开启并行解码后，在极端测试情况下，由于设置了speculative-disable-by-batch-size导致不跑并行解码导致previous_hidden_states不断增加，最终导致显存用尽服务无响应问题

[fix]修复开启并行解码后，在极端测试情况下，由于设置了speculative-disable-by-batch-size导致不跑并行解码导致previo...
[fix]修复开启并行解码后，在极端测试情况下，由于设置了speculative-disable-by-batch-size导致不跑并行解码导致previous_hidden_states不断增加，最终导致显存用尽服务无响应问题
58fc3e31 · zhuwenwen · fdc44c0a · 58fc3e31
Commit 58fc3e31 authored Apr 18, 2025 by zhuwenwen
Hide whitespace changes
Inline Side-by-side

Showing with 9 additions and 8 deletions

vllm/spec_decode/spec_decode_worker.py vllm/spec_decode/spec_decode_worker.py +9 -8

No files found.
--- a/vllm/spec_decode/spec_decode_worker.py
+++ b/vllm/spec_decode/spec_decode_worker.py
@@ -712,14 +712,15 @@ class SpecDecodeWorker(LoRANotSupportedWorkerBase):
                hidden_states = hidden_states[
                    torch.where(sampler_output.sampled_token_ids -
                                VLLM_INVALID_TOKEN_ID)[0]]
-            if self.previous_hidden_states is None and len(
+            if not skip_proposer:
-                    seq_group_meta_with_hidden):
+                if self.previous_hidden_states is None and len(
-                self.previous_hidden_states = HiddenStates(
+                        seq_group_meta_with_hidden):
-                    hidden_states, seq_group_meta_with_hidden)
+                    self.previous_hidden_states = HiddenStates(
-            elif self.previous_hidden_states and len(
+                        hidden_states, seq_group_meta_with_hidden)
-                    seq_group_meta_with_hidden):
+                elif self.previous_hidden_states and len(
-                self.previous_hidden_states.update(hidden_states,
+                        seq_group_meta_with_hidden):
-                                                   seq_group_meta_with_hidden)
+                    self.previous_hidden_states.update(hidden_states,
+                                                    seq_group_meta_with_hidden)
            # Store logits from target model execution.
            if self.tree_decoding: