[TPU] Async output processing for TPU (#8011)

80c7b089 · Woosuk Kwon · GitHub · 428dd144 · 80c7b089 · 80c7b089
Unverified Commit 80c7b089 authored Aug 29, 2024 by Woosuk Kwon Committed by GitHub Aug 29, 2024
Hide whitespace changes
Inline Side-by-side

Showing with 10 additions and 4 deletions

vllm/config.py vllm/config.py +3 -3

vllm/worker/tpu_model_runner.py vllm/worker/tpu_model_runner.py +7 -1

No files found.
--- a/vllm/config.py
+++ b/vllm/config.py
@@ -347,10 +347,10 @@ class ModelConfig:
            self.use_async_output_proc = False
            return

-        if device_config.device_type != "cuda":
+        if device_config.device_type not in ("cuda", "tpu"):
            logger.warning(
-                "Async output processing is only supported for CUDA."
-                " Disabling it for other platforms.")
+                "Async output processing is only supported for CUDA or TPU. "
+                "Disabling it for other platforms.")
            self.use_async_output_proc = False
            return


--- a/vllm/worker/tpu_model_runner.py
+++ b/vllm/worker/tpu_model_runner.py
 import time
 from dataclasses import dataclass
-from typing import TYPE_CHECKING, Any, Dict, List, Optional, Tuple, Type, Union
+from typing import (TYPE_CHECKING, Any, Callable, Dict, List, Optional, Tuple,
+                    Type, Union)
 from unittest.mock import patch

 import numpy as np
@@ -51,6 +52,7 @@ class ModelInputForTPU(ModelRunnerInputBase):
    best_of: List[int]
    seq_groups: List[List[int]]
    virtual_engine: int = 0
+    async_callback: Optional[Callable] = None

    def as_broadcastable_tensor_dict(
            self) -> Dict[str, Union[int, torch.Tensor]]:
@@ -562,6 +564,8 @@ class TPUModelRunner(ModelRunnerBase[ModelInputForTPU]):
                    model_input.attn_metadata, model_input.input_lens[i:i + 1],
                    model_input.t[i:i + 1], model_input.p[i:i + 1],
                    model_input.num_samples, kv_caches)
+                if i == 0 and model_input.async_callback is not None:
+                    model_input.async_callback()
                # Retrieve the outputs to CPU.
                next_token_ids += output_token_ids.cpu().tolist()
                start_idx = end_idx
@@ -572,6 +576,8 @@ class TPUModelRunner(ModelRunnerBase[ModelInputForTPU]):
                model_input.attn_metadata, model_input.input_lens,
                model_input.t, model_input.p, model_input.num_samples,
                kv_caches)
+            if model_input.async_callback is not None:
+                model_input.async_callback()
            # Retrieve the outputs to CPU.
            next_token_ids = output_token_ids.cpu().tolist()