[perf] slightly imporve DeepSeek-R1-FP4 TP8 (#7481)

bdbb8d00 · JieXin Liang · GitHub · 34c3f9b2 · bdbb8d00
Unverified Commit bdbb8d00 authored Jun 24, 2025 by JieXin Liang Committed by GitHub Jun 23, 2025
Hide whitespace changes
Inline Side-by-side

Showing with 4 additions and 2 deletions

python/sglang/srt/models/deepseek_v2.py python/sglang/srt/models/deepseek_v2.py +4 -2

No files found.
--- a/python/sglang/srt/models/deepseek_v2.py
+++ b/python/sglang/srt/models/deepseek_v2.py
@@ -362,12 +362,14 @@ class DeepseekV2MoE(nn.Module):
            return self.forward_deepep(hidden_states, forward_batch)

    def forward_normal_dual_stream(self, hidden_states: torch.Tensor) -> torch.Tensor:
+        # router_logits: (num_tokens, n_experts)
+        router_logits = self.gate(hidden_states)
+
        current_stream = torch.cuda.current_stream()
        self.alt_stream.wait_stream(current_stream)
        shared_output = self._forward_shared_experts(hidden_states)
+
        with torch.cuda.stream(self.alt_stream):
-            # router_logits: (num_tokens, n_experts)
-            router_logits = self.gate(hidden_states)
            final_hidden_states = self.experts(
                hidden_states=hidden_states, router_logits=router_logits
            )