修复新request kv cache移动错误

f0021a4d · 王敏 · acdbc978 · f0021a4d
Commit f0021a4d authored Dec 04, 2024 by 王敏
Show whitespace changes
Inline Side-by-side

Showing with 3 additions and 0 deletions

vllm/spec_decode/spec_decode_worker.py vllm/spec_decode/spec_decode_worker.py +3 -0

No files found.
--- a/vllm/spec_decode/spec_decode_worker.py
+++ b/vllm/spec_decode/spec_decode_worker.py
@@ -531,6 +531,9 @@ class SpecDecodeWorker(LoraNotSupportedWorkerBase):
        not called, meaning that the kv-cache in proposer for requests is not
        updated, so they cannot enable spec decode in the rest decoding.
        """
+        if self.tree_style_spec_decoding and self.kvcache_slot_to_be_moved is not None:
+            execute_model_req.kvcache_slot_to_be_moved = self.kvcache_slot_to_be_moved
+            self.kvcache_slot_to_be_moved = None

        sampler_output = self.scorer_worker.execute_model(execute_model_req)
        assert len(sampler_output) == 1