Merge remote-tracking branch 'mirror/main'

4b4eeb26 · zhuwenwen · 2216a4e5 · 4fdc581f · 4b4eeb26 · 4b4eeb26
Commit 4b4eeb26 authored Oct 24, 2024 by zhuwenwen
4 changed files
--- a/vllm/triton_utils/importing.py
+++ b/vllm/triton_utils/importing.py
@@ -5,10 +5,12 @@ from vllm.platforms import current_platform

 logger = init_logger(__name__)

-# neuron has too old torch
-HAS_TRITON = find_spec(
-    "triton") is not None and not current_platform.is_neuron()
+HAS_TRITON = (
+    find_spec("triton") is not None
+    and not current_platform.is_xpu()  # Not compatible
+    and not current_platform.is_neuron()  # neuron has too old torch
+)

 if not HAS_TRITON:
-    logger.info("Triton not installed; certain GPU-related functions"
-                " will not be available.")
+    logger.info("Triton not installed or not compatible; certain GPU-related"
+                " functions will not be available.")
--- a/vllm/utils.py
+++ b/vllm/utils.py
--- a/vllm/v1/engine/llm_engine.py
+++ b/vllm/v1/engine/llm_engine.py
@@ -300,6 +300,7 @@ class LLMEngine:
    def abort_request(self, request_id: Union[str, Iterable[str]]) -> None:
        self.scheduler.finish_requests(request_id,
                                       RequestStatus.FINISHED_ABORTED)
+        self._free_request(request_id)

    def get_num_unfinished_requests(self) -> int:
        """Gets the number of unfinished requests."""
@@ -361,6 +362,11 @@ class LLMEngine:
        num_reqs = len(detokenizer_output.req_ids)
        for i in range(num_reqs):
            req_id = detokenizer_output.req_ids[i]
+            if req_id not in self.requests:
+                # The request has been aborted while the detokenizer was
+                # processing the outputs.
+                continue
+
            req = self.requests[req_id]
            req.output_text += detokenizer_output.detokenized_texts[i]

@@ -373,9 +379,7 @@ class LLMEngine:
            req_outputs.append(req_output)

            if finished:
-                del self.requests[req_id]
-                del self.num_lagged_steps[req_id]
-                del self.request_outputs[req_id]
+                self._free_request(req_id)
        return req_outputs

    def terminate_detokenizer(self) -> None:
@@ -440,6 +444,11 @@ class LLMEngine:
            req_output.finished = finished
        return req_output

+    def _free_request(self, request_id: str) -> None:
+        self.requests.pop(request_id, None)
+        self.num_lagged_steps.pop(request_id, None)
+        self.request_outputs.pop(request_id, None)
+
    def check_health(self) -> None:
        if self.tokenizer:
            self.tokenizer.check_health()

--- a/vllm/worker/xpu_worker.py
+++ b/vllm/worker/xpu_worker.py