fix: Llama 4 BF16 load on Blackwell (#12308)

c143f416 · b8zhong · GitHub · b48354c5 · c143f416
Unverified Commit c143f416 authored Oct 28, 2025 by b8zhong Committed by GitHub Oct 28, 2025
Hide whitespace changes
Inline Side-by-side

Showing with 5 additions and 4 deletions

python/sglang/srt/server_args.py python/sglang/srt/server_args.py +5 -4

No files found.
--- a/python/sglang/srt/server_args.py
+++ b/python/sglang/srt/server_args.py
@@ -972,10 +972,11 @@ class ServerArgs:
                    "Use trtllm_mha as attention backend on sm100 for Llama4 model"
                )
            if is_sm100_supported() and self.moe_runner_backend == "auto":
-                self.moe_runner_backend = "flashinfer_trtllm"
-                logger.info(
-                    "Use flashinfer_trtllm as MoE runner backend on SM100 for Llama4"
-                )
+                if self.quantization in {"fp8", "modelopt_fp8"}:
+                    self.moe_runner_backend = "flashinfer_trtllm"
+                    logger.info(
+                        "Use flashinfer_trtllm as MoE runner backend on SM100 for Llama4"
+                    )
        elif model_arch in [
            "Gemma2ForCausalLM",
            "Gemma3ForCausalLM",