[Fix] ensure DeepGEMM is only enabled for FP8_W8A8 models (#8110)

5c08a36c · hzh0425 · GitHub · 9069884b · 5c08a36c
Unverified Commit 5c08a36c authored Jul 17, 2025 by hzh0425 Committed by GitHub Jul 16, 2025
Hide whitespace changes
Inline Side-by-side

Showing with 6 additions and 0 deletions

python/sglang/srt/layers/moe/ep_moe/layer.py python/sglang/srt/layers/moe/ep_moe/layer.py +6 -0

No files found.
--- a/python/sglang/srt/layers/moe/ep_moe/layer.py
+++ b/python/sglang/srt/layers/moe/ep_moe/layer.py
@@ -1272,6 +1272,12 @@ class DeepEPMoE(EPMoE):
            routed_scaling_factor=routed_scaling_factor,
        )
        self.deepep_mode = deepep_mode
+        if deep_gemm_wrapper.ENABLE_JIT_DEEPGEMM:
+            assert self.use_fp8_w8a8, (
+                "DeepGEMM requires an fp8_w8a8 model; "
+                "alternatively, you can disable DeepGEMM by turning off the ENABLE_JIT_DEEPGEMM environment variable."
+            )
        if self.deepep_mode.enable_low_latency():
            assert (
                deep_gemm_wrapper.ENABLE_JIT_DEEPGEMM