fix: bench_serving ITL calculation when using spec-decoding (#12064)

b9fb74f3 · Xinyuan Tong · GitHub · e15b63a1 · b9fb74f3
Unverified Commit b9fb74f3 authored Oct 24, 2025 by Xinyuan Tong Committed by GitHub Oct 24, 2025
Hide whitespace changes
Inline Side-by-side

Showing with 10 additions and 1 deletion

python/sglang/bench_serving.py python/sglang/bench_serving.py +10 -1

No files found.
--- a/python/sglang/bench_serving.py
+++ b/python/sglang/bench_serving.py
@@ -1626,6 +1626,7 @@ def calculate_metrics(
    dur_s: float,
    tokenizer: PreTrainedTokenizerBase,
    backend: str,
+    accept_length: Optional[float] = None,
 ) -> Tuple[BenchmarkMetrics, List[int]]:
    output_lens: List[int] = []
    retokenized_output_lens: List[int] = []
@@ -1650,7 +1651,14 @@ def calculate_metrics(
            total_input_vision += input_requests[i].vision_prompt_len
            if output_len > 1:
                tpots.append((outputs[i].latency - outputs[i].ttft) / (output_len - 1))
-            itls += outputs[i].itl
+            if (
+                accept_length
+                and accept_length > 0
+                and backend in ("sglang-oai", "sglang-oai-chat")
+            ):
+                itls += [v / accept_length for v in outputs[i].itl]
+            else:
+                itls += outputs[i].itl
            ttfts.append(outputs[i].ttft)

            e2e_latencies.append(outputs[i].latency)
@@ -1929,6 +1937,7 @@ async def benchmark(
        dur_s=benchmark_duration,
        tokenizer=tokenizer,
        backend=backend,
+        accept_length=accept_length,
    )

    print("\n{s:{c}^{n}}".format(s=" Serving Benchmark Result ", n=50, c="="))