[Bugfix] Fix MTP+FlashInfer crash when trtllm kernels are available but disabled (#26361)

Signed-off-by: Benjamin Chislett <bchislett@nvidia.com> Signed-off-by: Benjamin Chislett <chislett.ben@gmail.com> Co-authored-by: gemini-code-assist[bot] <176961590+gemini-code-assist[bot]@users.noreply.github.com>

[Bugfix] Fix MTP+FlashInfer crash when trtllm kernels are available but disabled (#26361)
Signed-off-by: Benjamin Chislett <bchislett@nvidia.com> Signed-off-by: Benjamin Chislett <chislett.ben@gmail.com> Co-authored-by: gemini-code-assist[bot] <176961590+gemini-code-assist[bot]@users.noreply.github.com>
caf8b1c0 · Benjamin Chislett · GitHub · 1b86bd8e · caf8b1c0
Unverified Commit caf8b1c0 authored Oct 07, 2025 by Benjamin Chislett Committed by GitHub Oct 07, 2025
Show whitespace changes
Inline Side-by-side

Showing with 2 additions and 0 deletions

vllm/utils/flashinfer.py vllm/utils/flashinfer.py +2 -0

No files found.
--- a/vllm/utils/flashinfer.py
+++ b/vllm/utils/flashinfer.py
@@ -220,6 +220,8 @@ def force_use_trtllm_attention() -> bool | None:
 def can_use_trtllm_attention(num_qo_heads: int, num_kv_heads: int) -> bool:
    """Check if the current configuration supports TRTLLM attention."""
+    if force_use_trtllm_attention() is False:
+        return False
    has_trtllm = supports_trtllm_attention()
    return has_trtllm and (num_qo_heads % num_kv_heads == 0)