added vllm092 auto test scripts

d1a06223 · liuxu3 · fba2e3b5 · d1a06223 · d1a06223 · d1a06223
Commit d1a06223 authored Feb 24, 2026 by liuxu3
20 changed files
--- a/offline_benchmark_test/benchmarks/benchmark_throughput.py
+++ b/offline_benchmark_test/benchmarks/benchmark_throughput.py
--- a/offline_benchmark_test/benchmarks/benchmark_utils.py
+++ b/offline_benchmark_test/benchmarks/benchmark_utils.py
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+import argparse
+import json
+import math
+import os
+from typing import Any
+def convert_to_pytorch_benchmark_format(
+    args: argparse.Namespace, metrics: dict[str, list], extra_info: dict[str, Any]
+) -> list:
+    """
+    Save the benchmark results in the format used by PyTorch OSS benchmark with
+    on metric per record
+    https://github.com/pytorch/pytorch/wiki/How-to-integrate-with-PyTorch-OSS-benchmark-database
+    """
+    records = []
+    if not os.environ.get("SAVE_TO_PYTORCH_BENCHMARK_FORMAT", False):
+        return records
+    for name, benchmark_values in metrics.items():
+        record = {
+            "benchmark": {
+                "name": "vLLM benchmark",
+                "extra_info": {
+                    "args": vars(args),
+                },
+            },
+            "model": {
+                "name": args.model,
+            },
+            "metric": {
+                "name": name,
+                "benchmark_values": benchmark_values,
+                "extra_info": extra_info,
+            },
+        }
+        tp = record["benchmark"]["extra_info"]["args"].get("tensor_parallel_size")
+        # Save tensor_parallel_size parameter if it's part of the metadata
+        if not tp and "tensor_parallel_size" in extra_info:
+            record["benchmark"]["extra_info"]["args"]["tensor_parallel_size"] = (
+                extra_info["tensor_parallel_size"]
+            )
+        records.append(record)
+    return records
+class InfEncoder(json.JSONEncoder):
+    def clear_inf(self, o: Any):
+        if isinstance(o, dict):
+            return {k: self.clear_inf(v) for k, v in o.items()}
+        elif isinstance(o, list):
+            return [self.clear_inf(v) for v in o]
+        elif isinstance(o, float) and math.isinf(o):
+            return "inf"
+        return o
+    def iterencode(self, o: Any, *args, **kwargs) -> Any:
+        return super().iterencode(self.clear_inf(o), *args, **kwargs)
+def write_to_json(filename: str, records: list) -> None:
+    with open(filename, "w") as f:
+        json.dump(
+            records,
+            f,
+            cls=InfEncoder,
+            default=lambda o: f"<{type(o).__name__} object is not JSON serializable>",
+        )
--- a/offline_benchmark_test/benchmarks/cutlass_benchmarks/sparse_benchmarks.py
+++ b/offline_benchmark_test/benchmarks/cutlass_benchmarks/sparse_benchmarks.py
--- a/offline_benchmark_test/benchmarks/cutlass_benchmarks/utils.py
+++ b/offline_benchmark_test/benchmarks/cutlass_benchmarks/utils.py
--- a/offline_benchmark_test/benchmarks/cutlass_benchmarks/w8a8_benchmarks.py
+++ b/offline_benchmark_test/benchmarks/cutlass_benchmarks/w8a8_benchmarks.py
--- a/offline_benchmark_test/benchmarks/cutlass_benchmarks/weight_shapes.py
+++ b/offline_benchmark_test/benchmarks/cutlass_benchmarks/weight_shapes.py
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+# Weight Shapes are in the format
+# ([K, N], TP_SPLIT_DIM)
+# Example:
+#  A shape of ([14336, 4096], 0) indicates the following GEMM shape,
+#   - TP1 : K = 14336, N = 4096
+#   - TP2 : K = 7168, N = 4096
+#  A shape of ([4096, 6144], 1) indicates the following GEMM shape,
+#   - TP1 : K = 4096, N = 6144
+#   - TP4 : K = 4096, N = 1536
+# TP1 shapes
+WEIGHT_SHAPES = {
+    "mistralai/Mistral-7B-v0.1": [
+        ([4096, 6144], 1),
+        ([4096, 4096], 0),
+        ([4096, 28672], 1),
+        ([14336, 4096], 0),
+    ],
+    "meta-llama/Llama-2-7b-hf": [
+        ([4096, 12288], 1),
+        ([4096, 4096], 0),
+        ([4096, 22016], 1),
+        ([11008, 4096], 0),
+    ],
+    "meta-llama/Llama-3-8b": [
+        ([4096, 6144], 1),
+        ([4096, 4096], 0),
+        ([4096, 28672], 1),
+        ([14336, 4096], 0),
+    ],
+    "meta-llama/Llama-2-13b-hf": [
+        ([5120, 15360], 1),
+        ([5120, 5120], 0),
+        ([5120, 27648], 1),
+        ([13824, 5120], 0),
+    ],
+    "meta-llama/Llama-2-70b-hf": [
+        ([8192, 10240], 1),
+        ([8192, 8192], 0),
+        ([8192, 57344], 1),
+        ([28672, 8192], 0),
+    ],
+}
--- a/offline_benchmark_test/benchmarks/disagg_benchmarks/disagg_overhead_benchmark.sh
+++ b/offline_benchmark_test/benchmarks/disagg_benchmarks/disagg_overhead_benchmark.sh
--- a/offline_benchmark_test/benchmarks/disagg_benchmarks/disagg_performance_benchmark.sh
+++ b/offline_benchmark_test/benchmarks/disagg_benchmarks/disagg_performance_benchmark.sh
--- a/offline_benchmark_test/benchmarks/disagg_benchmarks/disagg_prefill_proxy_server.py
+++ b/offline_benchmark_test/benchmarks/disagg_benchmarks/disagg_prefill_proxy_server.py
--- a/offline_benchmark_test/benchmarks/disagg_benchmarks/round_robin_proxy.py
+++ b/offline_benchmark_test/benchmarks/disagg_benchmarks/round_robin_proxy.py
--- a/offline_benchmark_test/benchmarks/disagg_benchmarks/visualize_benchmark_results.py
+++ b/offline_benchmark_test/benchmarks/disagg_benchmarks/visualize_benchmark_results.py
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+import json
+import matplotlib.pyplot as plt
+import pandas as pd
+if __name__ == "__main__":
+    data = []
+    for name in ["disagg_prefill", "chunked_prefill"]:
+        for qps in [2, 4, 6, 8]:
+            with open(f"results/{name}-qps-{qps}.json") as f:
+                x = json.load(f)
+                x["name"] = name
+                x["qps"] = qps
+                data.append(x)
+    df = pd.DataFrame.from_dict(data)
+    dis_df = df[df["name"] == "disagg_prefill"]
+    chu_df = df[df["name"] == "chunked_prefill"]
+    plt.style.use("bmh")
+    plt.rcParams["font.size"] = 20
+    for key in [
+        "mean_ttft_ms",
+        "median_ttft_ms",
+        "p99_ttft_ms",
+        "mean_itl_ms",
+        "median_itl_ms",
+        "p99_itl_ms",
+    ]:
+        fig, ax = plt.subplots(figsize=(11, 7))
+        plt.plot(
+            dis_df["qps"], dis_df[key], label="disagg_prefill", marker="o", linewidth=4
+        )
+        plt.plot(
+            chu_df["qps"], chu_df[key], label="chunked_prefill", marker="o", linewidth=4
+        )
+        ax.legend()
+        ax.set_xlabel("QPS")
+        ax.set_ylabel(key)
+        ax.set_ylim(bottom=0)
+        fig.savefig(f"results/{key}.png")
+        plt.close(fig)
--- a/offline_benchmark_test/benchmarks/fused_kernels/layernorm_rms_benchmarks.py
+++ b/offline_benchmark_test/benchmarks/fused_kernels/layernorm_rms_benchmarks.py
--- a/offline_benchmark_test/benchmarks/kernels/bench_fp8_gemm.py
+++ b/offline_benchmark_test/benchmarks/kernels/bench_fp8_gemm.py
--- a/offline_benchmark_test/benchmarks/kernels/bench_int8_gemm.py
+++ b/offline_benchmark_test/benchmarks/kernels/bench_int8_gemm.py
--- a/offline_benchmark_test/benchmarks/kernels/benchmark_aqlm.py
+++ b/offline_benchmark_test/benchmarks/kernels/benchmark_aqlm.py
--- a/offline_benchmark_test/benchmarks/kernels/benchmark_bitblas.py
+++ b/offline_benchmark_test/benchmarks/kernels/benchmark_bitblas.py
--- a/offline_benchmark_test/benchmarks/kernels/benchmark_cutlass_fp4_moe.py
+++ b/offline_benchmark_test/benchmarks/kernels/benchmark_cutlass_fp4_moe.py
--- a/offline_benchmark_test/benchmarks/kernels/benchmark_grouped_gemm_cutlass.py
+++ b/offline_benchmark_test/benchmarks/kernels/benchmark_grouped_gemm_cutlass.py
--- a/offline_benchmark_test/benchmarks/kernels/benchmark_layernorm.py
+++ b/offline_benchmark_test/benchmarks/kernels/benchmark_layernorm.py
--- a/offline_benchmark_test/benchmarks/kernels/benchmark_lora.py
+++ b/offline_benchmark_test/benchmarks/kernels/benchmark_lora.py