[Bug] Fix fp8 deepgemm batch invariant (#37718)

Signed-off-by: yewentao256 <zhyanwentao@126.com>

[Bug] Fix fp8 deepgemm batch invariant (#37718)
Signed-off-by: yewentao256 <zhyanwentao@126.com>
77d24c4b · Wentao Ye · GitHub · b3e84601 · 77d24c4b
Unverified Commit 77d24c4b authored Mar 22, 2026 by Wentao Ye Committed by GitHub Mar 22, 2026
Hide whitespace changes
Inline Side-by-side

Showing with 5 additions and 0 deletions

vllm/model_executor/layers/quantization/utils/fp8_utils.py vllm/model_executor/layers/quantization/utils/fp8_utils.py +5 -0

No files found.
--- a/vllm/model_executor/layers/quantization/utils/fp8_utils.py
+++ b/vllm/model_executor/layers/quantization/utils/fp8_utils.py
@@ -305,6 +305,11 @@ def _flashinfer_fp8_blockscale_gemm_impl(
        )
        return output

+    from vllm.model_executor.layers.batch_invariant import vllm_is_batch_invariant
+
+    if vllm_is_batch_invariant():
+        return run_deepgemm(input, weight, weight_scale)
+
    condition = input.shape[0] < 32

    # PyTorch's torch.compile cannot handle input-dependent control flow in standard