使用groupgemm完成高吞吐模式适配

20241efa · yiqa · 8f355853 · 20241efa
Commit 20241efa authored Nov 14, 2025 by yiqa
Hide whitespace changes
Inline Side-by-side

Showing with 1 addition and 1 deletion

python/sglang/srt/layers/moe/token_dispatcher/deepep.py python/sglang/srt/layers/moe/token_dispatcher/deepep.py +1 -1

No files found.
--- a/python/sglang/srt/layers/moe/token_dispatcher/deepep.py
+++ b/python/sglang/srt/layers/moe/token_dispatcher/deepep.py
@@ -541,7 +541,7 @@ class _DeepEPDispatcherImplLowLatency(_DeepEPDispatcherImplBase):
        num_max_dispatch_tokens_per_rank: the actual batch size in the decoding engine should be less than 256
        https://github.com/deepseek-ai/DeepEP?tab=readme-ov-file#example-use-in-inference-decoding
        """
-        self.return_recv_hook = return_recv_hook
+        self.return_recv_hook = False
        self.device_module = torch.get_device_module()
        self.quant_config = {}