Improve the computation for time_per_output_token Prometheus metrics (#2674)

339c69a2 · Lianmin Zheng · GitHub · f7074700 · 339c69a2
Unverified Commit 339c69a2 authored Dec 30, 2024 by Lianmin Zheng Committed by GitHub Dec 30, 2024
Hide whitespace changes
Inline Side-by-side

Showing with 3 additions and 1 deletion

python/sglang/srt/managers/tokenizer_manager.py python/sglang/srt/managers/tokenizer_manager.py +3 -1

No files found.
--- a/python/sglang/srt/managers/tokenizer_manager.py
+++ b/python/sglang/srt/managers/tokenizer_manager.py
@@ -699,6 +699,7 @@ class TokenizerManager:
                            )
                        else:
                            if completion_tokens >= 2:
+                                # Compute time_per_output_token for the streaming case
                                self.metrics_collector.observe_time_per_output_token(
                                    (time.time() - state.first_token_time)
                                    / (completion_tokens - 1)
@@ -714,7 +715,8 @@ class TokenizerManager:
                            self.metrics_collector.observe_e2e_request_latency(
                                time.time() - state.created_time
                            )
-                            if completion_tokens >= 1:
+                            # Compute time_per_output_token for the non-streaming case
+                            if not state.obj.stream and completion_tokens >= 1:
                                self.metrics_collector.observe_time_per_output_token(
                                    (time.time() - state.created_time)
                                    / completion_tokens