[BUGFIX] GPTQ quantization compatibility for Qwen3 Next MOE models (AutoGPTQ...

[BUGFIX] GPTQ quantization compatibility for Qwen3 Next MOE models (AutoGPTQ and AutoRound-GPTQ) (#25268) Signed-off-by: JartX <sagformas@epdcenter.es>

[BUGFIX] GPTQ quantization compatibility for Qwen3 Next MOE models (AutoGPTQ...
[BUGFIX] GPTQ quantization compatibility for Qwen3 Next MOE models (AutoGPTQ and AutoRound-GPTQ) (#25268) Signed-off-by: JartX <sagformas@epdcenter.es>
36429096 · JartX · GitHub · c308501c · 36429096
Unverified Commit 36429096 authored Sep 20, 2025 by JartX Committed by GitHub Sep 20, 2025
Hide whitespace changes
Inline Side-by-side

Showing with 5 additions and 3 deletions

vllm/model_executor/models/qwen3_next.py vllm/model_executor/models/qwen3_next.py +5 -3

No files found.
--- a/vllm/model_executor/models/qwen3_next.py
+++ b/vllm/model_executor/models/qwen3_next.py
@@ -148,9 +148,11 @@ class Qwen3NextSparseMoeBlock(nn.Module):

    def _maybe_ignore_quant_config(self, quant_config: QuantizationConfig):
        # GPTQ configs do not have a list of ignored modules, however AutoGPTQ
-        # seems to avoid gate quantization.
-        # See: https://huggingface.co/Qwen/Qwen3-30B-A3B-GPTQ-Int4
-        if isinstance(quant_config, (GPTQConfig, GPTQMarlinConfig)):
+        # seems to avoid gate quantization while AutoRound does.
+        if isinstance(
+                quant_config,
+            (GPTQConfig,
+             GPTQMarlinConfig)) and not quant_config.autoround_version:
            return None
        return quant_config