[Misc] Update ShareGPT Dataset Sampling in Serving Benchmark (#4279)

7923dcad · Roger Wang · GitHub · 3cd9b5bb · 7923dcad
Unverified Commit 7923dcad authored Apr 24, 2024 by Roger Wang Committed by GitHub Apr 24, 2024
Show whitespace changes
Inline Side-by-side

Showing with 28 additions and 22 deletions

benchmarks/benchmark_serving.py benchmarks/benchmark_serving.py +28 -22

No files found.
--- a/benchmarks/benchmark_serving.py
+++ b/benchmarks/benchmark_serving.py
@@ -27,7 +27,7 @@ import time
 import warnings
 from dataclasses import dataclass
 from datetime import datetime
-from typing import AsyncGenerator, List, Tuple
+from typing import AsyncGenerator, List, Optional, Tuple
 import numpy as np
 from backend_request_func import (ASYNC_REQUEST_FUNCS, RequestFuncInput,
@@ -58,7 +58,11 @@ def sample_sharegpt_requests(
    dataset_path: str,
    num_requests: int,
    tokenizer: PreTrainedTokenizerBase,
+    fixed_output_len: Optional[int] = None,
 ) -> List[Tuple[str, int, int]]:
+    if fixed_output_len is not None and fixed_output_len < 4:
+        raise ValueError("output_len too small")
    # Load the dataset.
    with open(dataset_path) as f:
        dataset = json.load(f)
@@ -68,38 +72,32 @@ def sample_sharegpt_requests(
    dataset = [(data["conversations"][0]["value"],
                data["conversations"][1]["value"]) for data in dataset]
-    # some of these will be filtered out, so sample more than we need
+    # Shuffle the dataset.
-    sampled_indices = random.sample(range(len(dataset)),
+    random.shuffle(dataset)
-                                    int(num_requests * 1.2))
-    dataset = [dataset[i] for i in sampled_indices]
-    # Tokenize the prompts and completions.
+    # Filter out sequences that are too long or too short
-    prompts = [prompt for prompt, _ in dataset]
+    filtered_dataset: List[Tuple[str, int, int]] = []
-    prompt_token_ids = tokenizer(prompts).input_ids
-    completions = [completion for _, completion in dataset]
-    completion_token_ids = tokenizer(completions).input_ids
-    tokenized_dataset = []
    for i in range(len(dataset)):
-        output_len = len(completion_token_ids[i])
+        if len(filtered_dataset) == num_requests:
-        tokenized_dataset.append((prompts[i], prompt_token_ids[i], output_len))
+            break
-    # Filter out too long sequences.
+        # Tokenize the prompts and completions.
-    filtered_dataset: List[Tuple[str, int, int]] = []
+        prompt = dataset[i][0]
-    for prompt, prompt_token_ids, output_len in tokenized_dataset:
+        prompt_token_ids = tokenizer(prompt).input_ids
+        completion = dataset[i][1]
+        completion_token_ids = tokenizer(completion).input_ids
        prompt_len = len(prompt_token_ids)
+        output_len = len(completion_token_ids
+                         ) if fixed_output_len is None else fixed_output_len
        if prompt_len < 4 or output_len < 4:
            # Prune too short sequences.
-            # This is because TGI causes errors when the input or output length
-            # is too short.
            continue
        if prompt_len > 1024 or prompt_len + output_len > 2048:
            # Prune too long sequences.
            continue
        filtered_dataset.append((prompt, prompt_len, output_len))
-    # Sample the requests.
+    return filtered_dataset
-    sampled_requests = random.sample(filtered_dataset, num_requests)
-    return sampled_requests
 def sample_sonnet_requests(
@@ -361,6 +359,7 @@ def main(args: argparse.Namespace):
            dataset_path=args.dataset,
            num_requests=args.num_prompts,
            tokenizer=tokenizer,
+            fixed_output_len=args.sharegpt_output_len,
        )
    elif args.dataset_name == "sharegpt":
@@ -368,6 +367,7 @@ def main(args: argparse.Namespace):
            dataset_path=args.dataset_path,
            num_requests=args.num_prompts,
            tokenizer=tokenizer,
+            fixed_output_len=args.sharegpt_output_len,
        )
    elif args.dataset_name == "sonnet":
@@ -524,6 +524,12 @@ if __name__ == "__main__":
        default=1000,
        help="Number of prompts to process.",
    )
+    parser.add_argument(
+        "--sharegpt-output-len",
+        type=int,
+        default=None,
+        help="Output length for each request. Overrides the output length "
+        "from the ShareGPT dataset.")
    parser.add_argument(
        "--sonnet-input-len",
        type=int,