avoid cudaStreamSynchronize in DeepSeekV2AttentionMLA (#4577)

Co-authored-by: Zhang Kaihong <zhangkaihong.zkh@alibaba-inc.com>

avoid cudaStreamSynchronize in DeepSeekV2AttentionMLA (#4577)
Co-authored-by: Zhang Kaihong <zhangkaihong.zkh@alibaba-inc.com>
df7014a8 · strgrb · GitHub · 49420741 · df7014a8
Unverified Commit df7014a8 authored Mar 20, 2025 by strgrb Committed by GitHub Mar 19, 2025
Hide whitespace changes
Inline Side-by-side

Showing with 2 additions and 2 deletions

python/sglang/srt/models/deepseek_v2.py python/sglang/srt/models/deepseek_v2.py +2 -2

No files found.
--- a/python/sglang/srt/models/deepseek_v2.py
+++ b/python/sglang/srt/models/deepseek_v2.py
@@ -658,7 +658,7 @@ class DeepseekV2AttentionMLA(nn.Module):
                and forward_batch.forward_mode.is_extend()
                and not forward_batch.forward_mode.is_target_verify()
                and not forward_batch.forward_mode.is_draft_extend()
-                and forward_batch.extend_prefix_lens.sum() == 0
+                and sum(forward_batch.extend_prefix_lens_cpu) == 0
            )
        else:
            # Triton: Use normal computation for prefill and use weight absorption for extend/decode
@@ -666,7 +666,7 @@ class DeepseekV2AttentionMLA(nn.Module):
                forward_batch.forward_mode.is_extend()
                and not forward_batch.forward_mode.is_target_verify()
                and not forward_batch.forward_mode.is_draft_extend()
-                and forward_batch.extend_prefix_lens.sum() == 0
+                and sum(forward_batch.extend_prefix_lens_cpu) == 0
            )
    def forward(