[fix]解决w8a8+mtp启动失败问题

04e1940d · 王敏 · 45d85414 · 04e1940d · 04e1940d
Commit 04e1940d authored Feb 12, 2026 by 王敏
Show whitespace changes
Inline Side-by-side

Showing with 3 additions and 0 deletions

vllm/config/model.py vllm/config/model.py +1 -0

vllm/model_executor/layers/quantization/__init__.py vllm/model_executor/layers/quantization/__init__.py +2 -0

No files found.
--- a/vllm/config/model.py
+++ b/vllm/config/model.py
@@ -928,6 +928,7 @@ class ModelConfig:
                # imports during override detection (e.g., MXFP4 imports Triton)
                "mxfp4",
                "slimquant_w4a8_marlin",
+                "slimquant_marlin",
                "slimquant_compressed_tensors_marlin",
            ]
            quantization_methods = [

--- a/vllm/model_executor/layers/quantization/__init__.py
+++ b/vllm/model_executor/layers/quantization/__init__.py
@@ -38,6 +38,7 @@ QuantizationMethods = Literal[
    "blockwise_int8",
    "slimquant_w4a8",
    "slimquant_w4a8_marlin",
+    "slimquant_marlin",
    "slimquant_compressed_tensors_marlin",
 ]
 QUANTIZATION_METHODS: list[str] = list(get_args(QuantizationMethods))
@@ -154,6 +155,7 @@ def get_quantization_config(quantization: str) -> type[QuantizationConfig]:
        "blockwise_int8": BlockInt8Config,
        "slimquant_w4a8":SlimQuantW4A8Int8Config,
        "slimquant_w4a8_marlin":SlimQuantW4A8Int8MarlinConfig,
+        "slimquant_marlin":SlimQuantCompressedTensorsMarlinConfig,
        "slimquant_compressed_tensors_marlin":SlimQuantCompressedTensorsMarlinConfig,
    }
    # Update the `method_to_config` with customized quantization methods.