Fix cache hit rate when chunked prefill (#2555)

e7ebecf8 · Liangsheng Yin · GitHub · 9a23c484 · e7ebecf8 · e7ebecf8
Unverified Commit e7ebecf8 authored Dec 26, 2024 by Liangsheng Yin Committed by GitHub Dec 26, 2024
Showing with 8 additions and 11 deletions

python/sglang/srt/managers/schedule_policy.py python/sglang/srt/managers/schedule_policy.py +1 -1

python/sglang/srt/managers/scheduler.py python/sglang/srt/managers/scheduler.py +7 -10

No files found.
--- a/python/sglang/srt/managers/schedule_policy.py
+++ b/python/sglang/srt/managers/schedule_policy.py
@@ -248,7 +248,7 @@ class PrefillAdder:
        self.can_run_list.append(req)
        self._prefill_one_req(
-            len(req.prefix_indices),
+            0,
            req.extend_input_len,
            (
                min(req.sampling_params.max_new_tokens, CLIP_MAX_NEW_TOKENS_ESTIMATION)

--- a/python/sglang/srt/managers/scheduler.py
+++ b/python/sglang/srt/managers/scheduler.py
@@ -629,16 +629,13 @@ class Scheduler:
        self.waiting_queue.append(req)
    def log_prefill_stats(self, adder, can_run_list, running_bs, has_being_chunked):
-        if isinstance(self.tree_cache, RadixCache):
+        self.tree_cache_metrics["total"] += (
-            self.tree_cache_metrics["total"] += (
+            adder.log_input_tokens + adder.log_hit_tokens
-                adder.log_input_tokens + adder.log_hit_tokens
+        ) / 10**9
-            ) / 10**9
+        self.tree_cache_metrics["hit"] += (adder.log_hit_tokens) / 10**9
-            self.tree_cache_metrics["hit"] += (adder.log_hit_tokens) / 10**9
+        tree_cache_hit_rate = (
-            tree_cache_hit_rate = (
+            self.tree_cache_metrics["hit"] / self.tree_cache_metrics["total"]
-                self.tree_cache_metrics["hit"] / self.tree_cache_metrics["total"]
+        )
-            )
-        else:
-            tree_cache_hit_rate = 0.0
        num_used = self.max_total_num_tokens - (
            self.token_to_kv_pool.available_size() + self.tree_cache.evictable_size()