Move verify_marlin_supported to GPTQMarlinLinearMethod (#8165)

2ee45281 · Michael Goin · GitHub · 9da25a88 · 2ee45281
Unverified Commit 2ee45281 authored Sep 05, 2024 by Michael Goin Committed by GitHub Sep 05, 2024
Hide whitespace changes
Inline Side-by-side

Showing with 4 additions and 4 deletions

vllm/model_executor/layers/quantization/gptq_marlin.py vllm/model_executor/layers/quantization/gptq_marlin.py +4 -4

No files found.
--- a/vllm/model_executor/layers/quantization/gptq_marlin.py
+++ b/vllm/model_executor/layers/quantization/gptq_marlin.py
@@ -51,10 +51,6 @@ class GPTQMarlinConfig(QuantizationConfig):

        self.quant_type = self.TYPE_MAP[(weight_bits, is_sym)]

-        # Verify supported on platform.
-        verify_marlin_supported(quant_type=self.quant_type,
-                                group_size=self.group_size)
-
    def __repr__(self) -> str:
        return (f"GPTQMarlinConfig(quant_type={self.quant_type}, "
                f"group_size={self.group_size}, "
@@ -153,6 +149,10 @@ class GPTQMarlinLinearMethod(LinearMethodBase):
    def __init__(self, quant_config: GPTQMarlinConfig) -> None:
        self.quant_config = quant_config

+        # Verify supported on platform.
+        verify_marlin_supported(quant_type=self.quant_config.quant_type,
+                                group_size=self.quant_config.group_size)
+
    def create_weights(
        self,
        layer: torch.nn.Module,