[1/n] Enable DCA CUDA graph capture (#9537)

a2faf894 · b8zhong · GitHub · 7e61737d · a2faf894 · a2faf894
Unverified Commit a2faf894 authored Oct 02, 2025 by b8zhong Committed by GitHub Oct 03, 2025
Showing with 2 additions and 3 deletions

python/sglang/srt/layers/attention/dual_chunk_flashattention_backend.py ...srt/layers/attention/dual_chunk_flashattention_backend.py +1 -1

python/sglang/srt/server_args.py python/sglang/srt/server_args.py +1 -2

No files found.
--- a/python/sglang/srt/layers/attention/dual_chunk_flashattention_backend.py
+++ b/python/sglang/srt/layers/attention/dual_chunk_flashattention_backend.py
@@ -1537,7 +1537,7 @@ class DualChunkFlashAttentionBackend(AttentionBackend):
                    query_inter,
                    key_cache,
                    value_cache,
-                    block_table[:, : decode_meta.max_seq_len_inter],
+                    block_table,
                    decode_meta.seq_lens_inter,
                    softmax_scale,
                    causal=False,

--- a/python/sglang/srt/server_args.py
+++ b/python/sglang/srt/server_args.py
@@ -878,10 +878,9 @@ class ServerArgs:

        if self.attention_backend == "dual_chunk_flash_attn":
            logger.warning(
-                "Mixed chunk, radix cache, and cuda graphs are disabled because of using dual chunk flash attention backend"
+                "Mixed chunk and radix cache are disabled when using dual-chunk flash attention backend"
            )
            self.enable_mixed_chunk = False
-            self.disable_cuda_graph = True
            self.disable_radix_cache = True

    def _handle_page_size(self):