misc: fix the req_to_token member change (#967)

a01ddd96 · Liangsheng Yin · GitHub · 7fa54a1a · a01ddd96 · a01ddd96
Unverified Commit a01ddd96 authored Aug 07, 2024 by Liangsheng Yin Committed by GitHub Aug 07, 2024
Hide whitespace changes
Inline Side-by-side

Showing with 2 additions and 3 deletions

python/sglang/srt/managers/tp_worker.py python/sglang/srt/managers/tp_worker.py +2 -2

python/sglang/srt/mem_cache/memory_pool.py python/sglang/srt/mem_cache/memory_pool.py +0 -1

No files found.
--- a/python/sglang/srt/managers/tp_worker.py
+++ b/python/sglang/srt/managers/tp_worker.py
@@ -289,10 +289,10 @@ class ModelTpServer:
                "KV cache pool leak detected!"
            )

-        if self.req_to_token_pool.can_use_mem_size != self.req_to_token_pool.size:
+        if len(self.req_to_token_pool.free_slots) != self.req_to_token_pool.size:
            warnings.warn(
                "Warning: "
-                f"available req slots={self.req_to_token_pool.can_use_mem_size}, "
+                f"available req slots={len(self.req_to_token_pool.free_slots)}, "
                f"total slots={self.req_to_token_pool.size}\n"
                "Memory pool leak detected!"
            )

--- a/python/sglang/srt/mem_cache/memory_pool.py
+++ b/python/sglang/srt/mem_cache/memory_pool.py
@@ -32,7 +32,6 @@ class ReqToTokenPool:
        self.req_to_token = torch.empty(
            (size, max_context_len), dtype=torch.int32, device="cuda"
        )
-        self.can_use_mem_size = size

    def alloc(self, need_size: int) -> List[int]:
        if need_size > len(self.free_slots):