add auto finish thread when use LLM object

c78f6594 · lizhigong · fdf9bf98 · c78f6594 · c78f6594
Commit c78f6594 authored Apr 10, 2025 by lizhigong
Show whitespace changes
Inline Side-by-side

Showing with 3 additions and 2 deletions

vllm/engine/llm_engine.py vllm/engine/llm_engine.py +2 -2

vllm/entrypoints/llm.py vllm/entrypoints/llm.py +1 -0

No files found.
--- a/vllm/engine/llm_engine.py
+++ b/vllm/engine/llm_engine.py
@@ -1318,7 +1318,7 @@ class LLMEngine:
                    seq.append_token_id(sample.output_token, sample.logprobs)
    
    def finish_thread(self):
-        if self.zero_overhead:
+        if self.zero_overhead and self.thread_running:
            self.thread_running = False
            self.sem_m2s.release()
    
@@ -1390,8 +1390,8 @@ class LLMEngine:
    def zero_overhead_step(self) -> List[Union[RequestOutput, PoolingRequestOutput]]:
        if not self.thread_running:
            self.zero_thread.join()
-            self.zero_thread = threading.Thread(target=self.thread_zero_overhead)
            self.thread_running = True
+            self.zero_thread = threading.Thread(target=self.thread_zero_overhead)
            self.zero_thread.start()
        self.sem_m2s.release()
        recode_output = self.q_recorder.get()

--- a/vllm/entrypoints/llm.py
+++ b/vllm/entrypoints/llm.py
@@ -1412,6 +1412,7 @@ class LLM:
        if use_tqdm:
            pbar.close()

+        self.llm_engine.finish_thread()
        # Sort the outputs by request ID.
        # This is necessary because some requests may be finished earlier than
        # its previous requests.