[Model Runner V2] Fix Triton warning on tl.where (#30355)

Signed-off-by: Woosuk Kwon <woosuk.kwon@berkeley.edu>

[Model Runner V2] Fix Triton warning on tl.where (#30355)
Signed-off-by: Woosuk Kwon <woosuk.kwon@berkeley.edu>
9e6562a3 · Woosuk Kwon · GitHub · 0b6a8a30 · 9e6562a3
Unverified Commit 9e6562a3 authored Dec 09, 2025 by Woosuk Kwon Committed by GitHub Dec 09, 2025
Hide whitespace changes
Inline Side-by-side

Showing with 1 addition and 0 deletions

vllm/v1/worker/gpu/sample/penalties.py vllm/v1/worker/gpu/sample/penalties.py +1 -0

No files found.
--- a/vllm/v1/worker/gpu/sample/penalties.py
+++ b/vllm/v1/worker/gpu/sample/penalties.py
@@ -62,6 +62,7 @@ def _penalties_and_temperature_kernel(
                mask=packed_block < tl.cdiv(vocab_size, 32),
            )
            prompt_bin_mask = (packed_mask[:, None] >> (tl.arange(0, 32)[None, :])) & 1
+            prompt_bin_mask = prompt_bin_mask.to(tl.int1)
            prompt_bin_mask = prompt_bin_mask.reshape(BLOCK_SIZE)
            # If token appears in prompt or output, apply, otherwise use 1.0 for no-op.