Use min new token ratio at start (#701)

26868443 · Liangsheng Yin · GitHub · 824a77d0 · 26868443 · 26868443
Unverified Commit 26868443 authored Jul 23, 2024 by Liangsheng Yin Committed by GitHub Jul 23, 2024
Showing with 2 additions and 5 deletions

python/sglang/srt/managers/controller/tp_worker.py python/sglang/srt/managers/controller/tp_worker.py +1 -4

python/sglang/srt/server_args.py python/sglang/srt/server_args.py +1 -1

No files found.
--- a/python/sglang/srt/managers/controller/tp_worker.py
+++ b/python/sglang/srt/managers/controller/tp_worker.py
@@ -161,15 +161,12 @@ class ModelTpServer:
        assert (
            server_args.schedule_conservativeness >= 0
        ), "Invalid schedule_conservativeness"
-        self.new_token_ratio = min(
-            global_config.base_new_token_ratio * server_args.schedule_conservativeness,
-            1.0,
-        )
        self.min_new_token_ratio = min(
            global_config.base_min_new_token_ratio
            * server_args.schedule_conservativeness,
            1.0,
        )
+        self.new_token_ratio = self.min_new_token_ratio
        self.new_token_ratio_decay = global_config.new_token_ratio_decay
        self.new_token_ratio_recovery = global_config.new_token_ratio_recovery

--- a/python/sglang/srt/server_args.py
+++ b/python/sglang/srt/server_args.py
@@ -29,7 +29,7 @@ class ServerArgs:
    max_prefill_tokens: Optional[int] = None
    max_running_requests: Optional[int] = None
    schedule_heuristic: str = "lpm"
-    schedule_conservativeness: float = 0.8
+    schedule_conservativeness: float = 1.0
    # Other runtime options
    tp_size: int = 1