Improve configs - `ModelConfig` (#17130)

Signed-off-by: Harry Mellor <19981378+hmellor@users.noreply.github.com>

Improve configs - `ModelConfig` (#17130)
Signed-off-by: Harry Mellor <19981378+hmellor@users.noreply.github.com>
13698db6 · Harry Mellor · GitHub · 2c4f59af · 13698db6 · 13698db6
Unverified Commit 13698db6 authored Apr 30, 2025 by Harry Mellor Committed by GitHub Apr 30, 2025
16 changed files
--- a/vllm/model_executor/layers/quantization/gptq_bitblas.py
+++ b/vllm/model_executor/layers/quantization/gptq_bitblas.py
@@ -7,6 +7,7 @@ from torch.nn.parameter import Parameter
 from vllm.logger import init_logger
 from vllm.model_executor.layers.linear import (LinearBase, LinearMethodBase,
                                               set_weight_attrs)
+from vllm.model_executor.layers.quantization import QuantizationMethods
 from vllm.model_executor.layers.quantization.base_config import (
    QuantizationConfig)
 from vllm.model_executor.layers.quantization.kernels.mixed_precision import (
@@ -123,7 +124,7 @@ class GPTQBitBLASConfig(QuantizationConfig):
                f"quant_method={self.quant_method})")
    @classmethod
-    def get_name(cls) -> str:
+    def get_name(cls) -> QuantizationMethods:
        return "gptq_bitblas"
    @classmethod
@@ -151,8 +152,8 @@ class GPTQBitBLASConfig(QuantizationConfig):
                   lm_head_quantized)
    @classmethod
-    def override_quantization_method(cls, hf_quant_cfg,
+    def override_quantization_method(
-                                     user_quant) -> Optional[str]:
+            cls, hf_quant_cfg, user_quant) -> Optional[QuantizationMethods]:
        can_convert = cls.is_gptq_bitblas_compatible(hf_quant_cfg)
        is_valid_user_quant = (user_quant is None or user_quant == "bitblas"

--- a/vllm/model_executor/layers/quantization/gptq_marlin.py
+++ b/vllm/model_executor/layers/quantization/gptq_marlin.py
@@ -11,6 +11,7 @@ from vllm.model_executor.layers.fused_moe.layer import (
    FusedMoE, FusedMoEMethodBase, FusedMoeWeightScaleSupported)
 from vllm.model_executor.layers.linear import (LinearMethodBase,
                                               set_weight_attrs)
+from vllm.model_executor.layers.quantization import QuantizationMethods
 from vllm.model_executor.layers.quantization.base_config import (
    QuantizationConfig, QuantizeMethodBase)
 from vllm.model_executor.layers.quantization.kernels.mixed_precision import (
@@ -100,7 +101,7 @@ class GPTQMarlinConfig(QuantizationConfig):
                f"dynamic={self.dynamic}")
    @classmethod
-    def get_name(cls) -> str:
+    def get_name(cls) -> QuantizationMethods:
        return "gptq_marlin"
    @classmethod
@@ -130,8 +131,8 @@ class GPTQMarlinConfig(QuantizationConfig):
                   lm_head_quantized, dynamic, config)
    @classmethod
-    def override_quantization_method(cls, hf_quant_cfg,
+    def override_quantization_method(
-                                     user_quant) -> Optional[str]:
+            cls, hf_quant_cfg, user_quant) -> Optional[QuantizationMethods]:
        can_convert = cls.is_gptq_marlin_compatible(hf_quant_cfg)
        is_valid_user_quant = (user_quant is None or user_quant == "marlin"

--- a/vllm/model_executor/layers/quantization/gptq_marlin_24.py
+++ b/vllm/model_executor/layers/quantization/gptq_marlin_24.py
@@ -8,6 +8,7 @@ from torch.nn.parameter import Parameter
 from vllm import _custom_ops as ops
 from vllm.logger import init_logger
 from vllm.model_executor.layers.linear import LinearBase, LinearMethodBase
+from vllm.model_executor.layers.quantization import QuantizationMethods
 from vllm.model_executor.layers.quantization.base_config import (
    QuantizationConfig)
 from vllm.model_executor.parameter import (BasevLLMParameter,
@@ -85,7 +86,7 @@ class GPTQMarlin24Config(QuantizationConfig):
            self.quant_type, self.group_size)
    @classmethod
-    def get_name(cls) -> str:
+    def get_name(cls) -> QuantizationMethods:
        return "gptq_marlin_24"
    @classmethod
@@ -108,8 +109,8 @@ class GPTQMarlin24Config(QuantizationConfig):
        return cls(weight_bits, group_size)
    @classmethod
-    def override_quantization_method(cls, hf_quant_cfg,
+    def override_quantization_method(
-                                     user_quant) -> Optional[str]:
+            cls, hf_quant_cfg, user_quant) -> Optional[QuantizationMethods]:
        is_marlin_24_format = (
            hf_quant_cfg.get("checkpoint_format") == "marlin_24")

--- a/vllm/model_executor/layers/quantization/hqq_marlin.py
+++ b/vllm/model_executor/layers/quantization/hqq_marlin.py
@@ -8,6 +8,7 @@ from vllm import _custom_ops as ops
 from vllm.logger import init_logger
 from vllm.model_executor.layers.linear import (LinearBase, LinearMethodBase,
                                               UnquantizedLinearMethod)
+from vllm.model_executor.layers.quantization import QuantizationMethods
 from vllm.model_executor.layers.quantization.base_config import (
    QuantizationConfig, QuantizeMethodBase)
 from vllm.model_executor.layers.quantization.utils.marlin_utils import (
@@ -50,7 +51,7 @@ class HQQMarlinConfig(QuantizationConfig):
                f"group_size={self.group_size})")
    @classmethod
-    def get_name(cls) -> str:
+    def get_name(cls) -> QuantizationMethods:
        return "hqq"
    @classmethod

--- a/vllm/model_executor/layers/quantization/ipex_quant.py
+++ b/vllm/model_executor/layers/quantization/ipex_quant.py
@@ -6,6 +6,7 @@ import torch
 from vllm.model_executor.layers.linear import (LinearBase, LinearMethodBase,
                                               UnquantizedLinearMethod)
+from vllm.model_executor.layers.quantization import QuantizationMethods
 from vllm.model_executor.layers.quantization.awq import (AWQLinearMethod,
                                                         is_layer_skipped_awq)
 from vllm.model_executor.layers.quantization.base_config import (
@@ -58,7 +59,7 @@ class IPEXConfig(QuantizationConfig):
                f"group_size={self.group_size})")
    @classmethod
-    def get_name(cls) -> str:
+    def get_name(cls) -> QuantizationMethods:
        return "ipex"
    @classmethod
@@ -97,8 +98,8 @@ class IPEXConfig(QuantizationConfig):
                   lm_head_quantized)
    @classmethod
-    def override_quantization_method(cls, hf_quant_cfg,
+    def override_quantization_method(
-                                     user_quant) -> Optional[str]:
+            cls, hf_quant_cfg, user_quant) -> Optional[QuantizationMethods]:
        if not current_platform.is_cpu() and not current_platform.is_xpu():
            return None

--- a/vllm/model_executor/layers/quantization/marlin.py
+++ b/vllm/model_executor/layers/quantization/marlin.py
@@ -8,6 +8,7 @@ from torch.nn.parameter import Parameter
 from vllm import _custom_ops as ops
 from vllm.logger import init_logger
 from vllm.model_executor.layers.linear import LinearBase, LinearMethodBase
+from vllm.model_executor.layers.quantization import QuantizationMethods
 from vllm.model_executor.layers.quantization.base_config import (
    QuantizationConfig)
 from vllm.model_executor.layers.vocab_parallel_embedding import ParallelLMHead
@@ -63,7 +64,7 @@ class MarlinConfig(QuantizationConfig):
                f"lm_head_quantized={self.lm_head_quantized})")
    @classmethod
-    def get_name(cls) -> str:
+    def get_name(cls) -> QuantizationMethods:
        return "marlin"
    @classmethod
@@ -87,8 +88,8 @@ class MarlinConfig(QuantizationConfig):
        return cls(group_size, lm_head_quantized)
    @classmethod
-    def override_quantization_method(cls, hf_quant_cfg,
+    def override_quantization_method(
-                                     user_quant) -> Optional[str]:
+            cls, hf_quant_cfg, user_quant) -> Optional[QuantizationMethods]:
        # compat: autogptq >=0.8.0 use checkpoint_format: str
        # compat: autogptq <=0.7.1 is_marlin_format: bool
        is_marlin_format = (hf_quant_cfg.get("checkpoint_format") == "marlin"

--- a/vllm/model_executor/layers/quantization/modelopt.py
+++ b/vllm/model_executor/layers/quantization/modelopt.py
@@ -11,6 +11,7 @@ from vllm._custom_ops import (cutlass_scaled_fp4_mm,
 from vllm.logger import init_logger
 from vllm.model_executor.layers.linear import (LinearBase, LinearMethodBase,
                                               UnquantizedLinearMethod)
+from vllm.model_executor.layers.quantization import QuantizationMethods
 from vllm.model_executor.layers.quantization.base_config import (
    QuantizationConfig, QuantizeMethodBase)
 from vllm.model_executor.layers.quantization.kv_cache import BaseKVCacheMethod
@@ -42,7 +43,7 @@ class ModelOptFp8Config(QuantizationConfig):
                           " the format is experimental and could change.")
    @classmethod
-    def get_name(cls) -> str:
+    def get_name(cls) -> QuantizationMethods:
        return "modelopt"
    @classmethod
@@ -184,8 +185,8 @@ class ModelOptNvFp4Config(QuantizationConfig):
            self.exclude_modules = exclude_modules
    @classmethod
-    def get_name(cls) -> str:
+    def get_name(cls) -> QuantizationMethods:
-        return "modelopt_nvfp4"
+        return "nvfp4"
    @classmethod
    def get_supported_act_dtypes(cls) -> List[torch.dtype]:

--- a/vllm/model_executor/layers/quantization/moe_wna16.py
+++ b/vllm/model_executor/layers/quantization/moe_wna16.py
@@ -9,6 +9,7 @@ from vllm.model_executor.layers.fused_moe.layer import (
    FusedMoE, FusedMoEMethodBase, FusedMoeWeightScaleSupported)
 from vllm.model_executor.layers.linear import (LinearBase,
                                               UnquantizedLinearMethod)
+from vllm.model_executor.layers.quantization import QuantizationMethods
 from vllm.model_executor.layers.quantization.base_config import (
    QuantizationConfig, QuantizeMethodBase)
 from vllm.model_executor.layers.quantization.utils.marlin_utils import (
@@ -64,7 +65,7 @@ class MoeWNA16Config(QuantizationConfig):
            self.modules_to_not_convert = modules_to_not_convert
    @classmethod
-    def get_name(cls) -> str:
+    def get_name(cls) -> QuantizationMethods:
        return "moe_wna16"
    @classmethod
@@ -100,8 +101,8 @@ class MoeWNA16Config(QuantizationConfig):
                   lm_head_quantized, modules_to_not_convert, config)
    @classmethod
-    def override_quantization_method(cls, hf_quant_cfg,
+    def override_quantization_method(
-                                     user_quant) -> Optional[str]:
+            cls, hf_quant_cfg, user_quant) -> Optional[QuantizationMethods]:
        can_convert = cls.is_moe_wna16_compatible(hf_quant_cfg)
        if can_convert and user_quant == "moe_wna16":
            return cls.get_name()

--- a/vllm/model_executor/layers/quantization/neuron_quant.py
+++ b/vllm/model_executor/layers/quantization/neuron_quant.py
@@ -6,6 +6,7 @@ from typing import Any, Dict, List, Optional
 from torch.nn import Module
+from vllm.model_executor.layers.quantization import QuantizationMethods
 from vllm.model_executor.layers.quantization.base_config import (
    QuantizationConfig)
@@ -30,7 +31,7 @@ class NeuronQuantConfig(QuantizationConfig):
        self.dequant_dtype = dequant_dtype
        self.quantize_method = quantize_method
-    def get_name(self) -> str:
+    def get_name(self) -> QuantizationMethods:
        return "neuron_quant"
    def get_supported_act_dtypes(self) -> List[str]:

--- a/vllm/model_executor/layers/quantization/ptpc_fp8.py
+++ b/vllm/model_executor/layers/quantization/ptpc_fp8.py
@@ -9,6 +9,7 @@ from vllm import _custom_ops as ops
 from vllm.logger import init_logger
 from vllm.model_executor.layers.linear import (LinearBase,
                                               UnquantizedLinearMethod)
+from vllm.model_executor.layers.quantization import QuantizationMethods
 from vllm.model_executor.layers.quantization.base_config import (
    QuantizeMethodBase)
 from vllm.model_executor.layers.quantization.fp8 import (Fp8Config,
@@ -50,7 +51,7 @@ class PTPCFp8Config(Fp8Config):
                         ignored_layers=ignored_layers)
    @classmethod
-    def get_name(cls) -> str:
+    def get_name(cls) -> QuantizationMethods:
        return "ptpc_fp8"
    @classmethod

--- a/vllm/model_executor/layers/quantization/qqq.py
+++ b/vllm/model_executor/layers/quantization/qqq.py
@@ -8,6 +8,7 @@ from torch.nn.parameter import Parameter
 from vllm import _custom_ops as ops
 from vllm.logger import init_logger
 from vllm.model_executor.layers.linear import LinearBase, LinearMethodBase
+from vllm.model_executor.layers.quantization import QuantizationMethods
 from vllm.model_executor.layers.quantization.base_config import (
    QuantizationConfig)
 from vllm.model_executor.parameter import (BasevLLMParameter,
@@ -84,7 +85,7 @@ class QQQConfig(QuantizationConfig):
            self.weight_bits, self.group_size)
    @classmethod
-    def get_name(cls) -> str:
+    def get_name(cls) -> QuantizationMethods:
        return "qqq"
    @classmethod

--- a/vllm/model_executor/layers/quantization/quark/quark.py
+++ b/vllm/model_executor/layers/quantization/quark/quark.py
@@ -8,6 +8,7 @@ import torch
 from vllm.model_executor.layers.fused_moe import FusedMoE
 from vllm.model_executor.layers.linear import (LinearBase, LinearMethodBase,
                                               UnquantizedLinearMethod)
+from vllm.model_executor.layers.quantization import QuantizationMethods
 from vllm.model_executor.layers.quantization.base_config import (  # noqa: E501
    QuantizationConfig, QuantizeMethodBase)
 from vllm.model_executor.layers.quantization.kv_cache import BaseKVCacheMethod
@@ -47,7 +48,7 @@ class QuarkConfig(QuantizationConfig):
    def get_min_capability(cls) -> int:
        return 70
-    def get_name(self) -> str:
+    def get_name(self) -> QuantizationMethods:
        return "quark"
    def get_quant_method(self, layer: torch.nn.Module,

--- a/vllm/model_executor/layers/quantization/torchao.py
+++ b/vllm/model_executor/layers/quantization/torchao.py
@@ -6,6 +6,7 @@ import torch.nn.functional as F
 from torch.nn.parameter import Parameter
 from vllm.model_executor.layers.linear import LinearBase, LinearMethodBase
+from vllm.model_executor.layers.quantization import QuantizationMethods
 from vllm.model_executor.layers.quantization.base_config import (
    QuantizationConfig)
 from vllm.model_executor.utils import set_weight_attrs
@@ -20,7 +21,7 @@ class TorchAOConfig(QuantizationConfig):
    def __repr__(self) -> str:
        return f"TorchAOConfig({self.torchao_config})"
-    def get_name(self) -> str:
+    def get_name(self) -> QuantizationMethods:
        return "torchao"
    def get_supported_act_dtypes(self) -> List[torch.dtype]:

--- a/vllm/model_executor/layers/quantization/tpu_int8.py
+++ b/vllm/model_executor/layers/quantization/tpu_int8.py
@@ -7,6 +7,7 @@ from torch.nn import Module
 from torch.nn.parameter import Parameter
 from vllm.model_executor.layers.linear import LinearBase, LinearMethodBase
+from vllm.model_executor.layers.quantization import QuantizationMethods
 from vllm.model_executor.layers.quantization.base_config import (
    QuantizationConfig)
 from vllm.model_executor.parameter import ModelWeightParameter
@@ -27,7 +28,7 @@ class Int8TpuConfig(QuantizationConfig):
                f"Unsupported activation scheme {activation_scheme}")
        self.activation_scheme = activation_scheme
-    def get_name(self) -> str:
+    def get_name(self) -> QuantizationMethods:
        return "tpu_int8"
    def get_supported_act_dtypes(self) -> List[torch.dtype]:

--- a/vllm/model_executor/layers/rotary_embedding.py
+++ b/vllm/model_executor/layers/rotary_embedding.py
@@ -1496,7 +1496,7 @@ def get_rope(
    if key in _ROPE_DICT:
        return _ROPE_DICT[key]
-    if rope_scaling is None:
+    if not rope_scaling:
        rotary_emb = RotaryEmbedding(head_size, rotary_dim, max_position, base,
                                     is_neox_style, dtype)
    else:

--- a/vllm/model_executor/model_loader/neuron.py
+++ b/vllm/model_executor/model_loader/neuron.py
@@ -180,7 +180,6 @@ def _get_neuron_config_after_override(default_neuron_config,
                                             NeuronConfig, QuantizationConfig,
                                             SparseAttnConfig)
-    overridden_neuron_config = overridden_neuron_config or {}
    sparse_attn = overridden_neuron_config.pop("sparse_attn", {})
    if sparse_attn:
        overridden_neuron_config["sparse_attn"] = SparseAttnConfig(