[V1][Minor] Set pin_memory=False for token_ids_cpu tensor (#11581)

Signed-off-by: Woosuk Kwon <woosuk.kwon@berkeley.edu>

[V1][Minor] Set pin_memory=False for token_ids_cpu tensor (#11581)
Signed-off-by: Woosuk Kwon <woosuk.kwon@berkeley.edu>
42bb201f · Woosuk Kwon · GitHub · 59d6bb4c · 42bb201f
Unverified Commit 42bb201f authored Dec 28, 2024 by Woosuk Kwon Committed by GitHub Dec 28, 2024
Show whitespace changes
Inline Side-by-side

Showing with 3 additions and 1 deletion

vllm/v1/worker/gpu_input_batch.py vllm/v1/worker/gpu_input_batch.py +3 -1

No files found.
--- a/vllm/v1/worker/gpu_input_batch.py
+++ b/vllm/v1/worker/gpu_input_batch.py
@@ -57,11 +57,13 @@ class InputBatch:

        # TODO(woosuk): This buffer could be too large if max_model_len is big.
        # Find a way to reduce the CPU memory usage.
+        # This buffer is not directly transferred to the GPU, so it does not
+        # need to be pinned.
        self.token_ids_cpu_tensor = torch.zeros(
            (max_num_reqs, max_model_len),
            device="cpu",
            dtype=torch.int32,
-            pin_memory=pin_memory,
+            pin_memory=False,
        )
        self.token_ids_cpu = self.token_ids_cpu_tensor.numpy()
        self.num_computed_tokens_cpu = np.empty(max_num_reqs, dtype=np.int32)