update benchmarks

00d3d196 · zhuwenwen · 2f5f98bb · 00d3d196 · 00d3d196 · 00d3d196
Commit 00d3d196 authored Oct 10, 2024 by zhuwenwen
4 changed files
--- a/benchmarks/benchmark_throughput.py
+++ b/benchmarks/benchmark_throughput.py
@@ -375,18 +375,32 @@ def main(args: argparse.Namespace):
                                   args.output_len)

    if args.backend == "vllm":
-        run_args = [
-            warmup_requests, requests, args.model, args.tokenizer, args.quantization,
-            args.tensor_parallel_size, args.seed, args.n, args.use_beam_search,
-            args.trust_remote_code, args.dtype, args.max_model_len,
-            args.enforce_eager, args.kv_cache_dtype,
-            args.quantization_param_path, args.device,
-            args.enable_prefix_caching, args.enable_chunked_prefill,
-            args.max_num_batched_tokens, args.distributed_executor_backend,
-            args.gpu_memory_utilization, args.num_scheduler_steps,
-            args.use_v2_block_manager, args.download_dir, args.load_format,
-            args.disable_async_output_proc
-        ]
+        if args.async_engine:
+            run_args = [
+                requests, args.model, args.tokenizer, args.quantization,
+                args.tensor_parallel_size, args.seed, args.n, args.use_beam_search,
+                args.trust_remote_code, args.dtype, args.max_model_len,
+                args.enforce_eager, args.kv_cache_dtype,
+                args.quantization_param_path, args.device,
+                args.enable_prefix_caching, args.enable_chunked_prefill,
+                args.max_num_batched_tokens, args.distributed_executor_backend,
+                args.gpu_memory_utilization, args.num_scheduler_steps,
+                args.use_v2_block_manager, args.download_dir, args.load_format,
+                args.disable_async_output_proc
+            ]
+        else:
+            run_args = [
+                warmup_requests, requests, args.model, args.tokenizer, args.quantization,
+                args.tensor_parallel_size, args.seed, args.n, args.use_beam_search,
+                args.trust_remote_code, args.dtype, args.max_model_len,
+                args.enforce_eager, args.kv_cache_dtype,
+                args.quantization_param_path, args.device,
+                args.enable_prefix_caching, args.enable_chunked_prefill,
+                args.max_num_batched_tokens, args.distributed_executor_backend,
+                args.gpu_memory_utilization, args.num_scheduler_steps,
+                args.use_v2_block_manager, args.download_dir, args.load_format,
+                args.disable_async_output_proc
+            ]

        if args.async_engine:
            run_args.append(args.disable_frontend_multiprocessing)

--- a/requirements-rocm.txt
+++ b/requirements-rocm.txt
@@ -9,7 +9,7 @@ ray >= 2.10.0
 peft
 pytest-asyncio
 tensorizer>=2.9.0
-setuptools_scm
+setuptools_scm>=8

 torch == 2.3.0
 triton == 2.1.0

--- a/vllm/benchmarks/benchmark_throughput.py
+++ b/vllm/benchmarks/benchmark_throughput.py
@@ -375,18 +375,32 @@ def main(args: argparse.Namespace):
                                   args.output_len)

    if args.backend == "vllm":
-        run_args = [
-            warmup_requests, requests, args.model, args.tokenizer, args.quantization,
-            args.tensor_parallel_size, args.seed, args.n, args.use_beam_search,
-            args.trust_remote_code, args.dtype, args.max_model_len,
-            args.enforce_eager, args.kv_cache_dtype,
-            args.quantization_param_path, args.device,
-            args.enable_prefix_caching, args.enable_chunked_prefill,
-            args.max_num_batched_tokens, args.distributed_executor_backend,
-            args.gpu_memory_utilization, args.num_scheduler_steps,
-            args.use_v2_block_manager, args.download_dir, args.load_format,
-            args.disable_async_output_proc
-        ]
+        if args.async_engine:
+            run_args = [
+                requests, args.model, args.tokenizer, args.quantization,
+                args.tensor_parallel_size, args.seed, args.n, args.use_beam_search,
+                args.trust_remote_code, args.dtype, args.max_model_len,
+                args.enforce_eager, args.kv_cache_dtype,
+                args.quantization_param_path, args.device,
+                args.enable_prefix_caching, args.enable_chunked_prefill,
+                args.max_num_batched_tokens, args.distributed_executor_backend,
+                args.gpu_memory_utilization, args.num_scheduler_steps,
+                args.use_v2_block_manager, args.download_dir, args.load_format,
+                args.disable_async_output_proc
+            ]
+        else:
+            run_args = [
+                warmup_requests, requests, args.model, args.tokenizer, args.quantization,
+                args.tensor_parallel_size, args.seed, args.n, args.use_beam_search,
+                args.trust_remote_code, args.dtype, args.max_model_len,
+                args.enforce_eager, args.kv_cache_dtype,
+                args.quantization_param_path, args.device,
+                args.enable_prefix_caching, args.enable_chunked_prefill,
+                args.max_num_batched_tokens, args.distributed_executor_backend,
+                args.gpu_memory_utilization, args.num_scheduler_steps,
+                args.use_v2_block_manager, args.download_dir, args.load_format,
+                args.disable_async_output_proc
+            ]

        if args.async_engine:
            run_args.append(args.disable_frontend_multiprocessing)

--- a/vllm/config.py
+++ b/vllm/config.py
@@ -289,9 +289,15 @@ class ModelConfig:
                quantization_override = method.override_quantization_method(
                    quant_cfg, self.quantization)
                if quantization_override:
-                    quant_method = quantization_override
-                    self.quantization = quantization_override
-                    break
+                    if is_hip():
+                        if quantization_override in rocm_supported_quantization:
+                            quant_method = quantization_override
+                            self.quantization = quantization_override
+                            break
+                    else:
+                        quant_method = quantization_override
+                        self.quantization = quantization_override
+                        break

            # Verify quantization configurations.
            if self.quantization is None: