[Minor] Enhance error message for TRTLLM decode uniformity check (#36609)

Signed-off-by: Woosuk Kwon <woosuk@inferact.ai>

[Minor] Enhance error message for TRTLLM decode uniformity check (#36609)
Signed-off-by: Woosuk Kwon <woosuk@inferact.ai>
195d1ca3 · Woosuk Kwon · GitHub · 8d983d7c · 195d1ca3
Unverified Commit 195d1ca3 authored Mar 10, 2026 by Woosuk Kwon Committed by GitHub Mar 10, 2026
Show whitespace changes
Inline Side-by-side

Showing with 2 additions and 1 deletion

vllm/v1/attention/backends/flashinfer.py vllm/v1/attention/backends/flashinfer.py +2 -1

No files found.
--- a/vllm/v1/attention/backends/flashinfer.py
+++ b/vllm/v1/attention/backends/flashinfer.py
@@ -1110,7 +1110,8 @@ class FlashInferMetadataBuilder(AttentionMetadataBuilder[FlashInferMetadata]):
        if num_decodes > 0:
            if decode_use_trtllm:
                assert num_decode_tokens % num_decodes == 0, (
-                    "TRTLLM decode requires uniform query lengths per request."
+                    "TRTLLM decode requires uniform query lengths per request. "
+                    f"Got {num_decode_tokens=} and {num_decodes=}."
                )
                attn_metadata.decode = TRTLLMDecode(
                    block_tables=block_table_tensor[:num_decodes],