Prevent memory leak of retract_decode when page_size > 1 (#4977)

12047f5e · Zhiqiang Xie · GitHub · fda6bb78 · 12047f5e
Unverified Commit 12047f5e authored Apr 01, 2025 by Zhiqiang Xie Committed by GitHub Apr 01, 2025
Hide whitespace changes
Inline Side-by-side

Showing with 2 additions and 4 deletions

python/sglang/srt/managers/schedule_batch.py python/sglang/srt/managers/schedule_batch.py +2 -4

No files found.
--- a/python/sglang/srt/managers/schedule_batch.py
+++ b/python/sglang/srt/managers/schedule_batch.py
@@ -1220,10 +1220,8 @@ class ScheduleBatch(ScheduleBatchDisaggregationDecodeMixin):
            else:
                # TODO: apply more fine-grained retraction
                last_uncached_pos = (
-                    (len(req.prefix_indices) + server_args.page_size - 1)
-                    // server_args.page_size
-                    * server_args.page_size
-                )
+                    len(req.prefix_indices) // server_args.page_size
+                ) * server_args.page_size
                token_indices = self.req_to_token_pool.req_to_token[
                    req.req_pool_idx, last_uncached_pos : seq_lens_cpu[idx]
                ]