[ROCm] Temporarily remove GPTQ ROCm support (#2138)

2acd76f3 · Woosuk Kwon · GitHub · b81a6a6b · 2acd76f3 · 2acd76f3
Unverified Commit 2acd76f3 authored Dec 15, 2023 by Woosuk Kwon Committed by GitHub Dec 15, 2023
Show whitespace changes
Inline Side-by-side

Showing with 2 additions and 2 deletions

setup.py setup.py +1 -1

vllm/config.py vllm/config.py +1 -1

No files found.
--- a/setup.py
+++ b/setup.py
@@ -219,13 +219,13 @@ vllm_extension_sources = [
    "csrc/activation_kernels.cu",
    "csrc/layernorm_kernels.cu",
    "csrc/quantization/squeezellm/quant_cuda_kernel.cu",
-    "csrc/quantization/gptq/q_gemm.cu",
    "csrc/cuda_utils_kernels.cu",
    "csrc/pybind.cpp",
 ]

 if _is_cuda():
    vllm_extension_sources.append("csrc/quantization/awq/gemm_kernels.cu")
+    vllm_extension_sources.append("csrc/quantization/gptq/q_gemm.cu")

 vllm_extension = CUDAExtension(
    name="vllm._C",

--- a/vllm/config.py
+++ b/vllm/config.py
@@ -143,7 +143,7 @@ class ModelConfig:

    def _verify_quantization(self) -> None:
        supported_quantization = ["awq", "gptq", "squeezellm"]
-        rocm_not_supported_quantization = ["awq"]
+        rocm_not_supported_quantization = ["awq", "gptq"]
        if self.quantization is not None:
            self.quantization = self.quantization.lower()