Fix DeepEP error in Qwen 3 MoE models (#6673)

a564e001 · fzyzcjy · GitHub · 2103b806 · a564e001
Unverified Commit a564e001 authored May 28, 2025 by fzyzcjy Committed by GitHub May 27, 2025
Hide whitespace changes
Inline Side-by-side

Showing with 9 additions and 6 deletions

python/sglang/srt/layers/moe/ep_moe/token_dispatcher.py python/sglang/srt/layers/moe/ep_moe/token_dispatcher.py +9 -6

No files found.
--- a/python/sglang/srt/layers/moe/ep_moe/token_dispatcher.py
+++ b/python/sglang/srt/layers/moe/ep_moe/token_dispatcher.py
@@ -93,17 +93,20 @@ class DeepEPBuffer:
                ),
                num_rdma_bytes,
            )
+
+        if deepep_mode == DeepEPMode.normal:
+            num_qps_per_rank = DeepEPConfig.get_instance().num_sms // 2
+        elif deepep_mode in [DeepEPMode.low_latency, DeepEPMode.auto]:
+            num_qps_per_rank = num_experts // group.size()
+        else:
+            raise NotImplementedError
+
        cls._buffer = Buffer(
            group,
            num_nvl_bytes,
            num_rdma_bytes,
            low_latency_mode=deepep_mode.enable_low_latency(),
-            num_qps_per_rank=(
-                max(
-                    num_experts // group.size(),
-                    DeepEPConfig.get_instance().num_sms // 2,
-                )
-            ),
+            num_qps_per_rank=num_qps_per_rank,
        )
        return cls._buffer