Merge branch 'v0.11.0-dev-yql-12.24' into 'v0.11.0-dev'

在v0.11中暂不支持w4a16的moe算子scale和zero合并操作 See merge request dcutoolkit/deeplearing/vllm!318

Merge branch 'v0.11.0-dev-yql-12.24' into 'v0.11.0-dev'
在v0.11中暂不支持w4a16的moe算子scale和zero合并操作 See merge request dcutoolkit/deeplearing/vllm!318
ca4598a4 · zhuwenwen · 9ff617d7 · 0ba1219a · ca4598a4 · ca4598a4
Commit ca4598a4 authored Dec 24, 2025 by zhuwenwen
Showing with 4 additions and 2 deletions

vllm/model_executor/layers/quantization/moe_wna16.py vllm/model_executor/layers/quantization/moe_wna16.py +2 -0

vllm/model_executor/model_loader/utils.py vllm/model_executor/model_loader/utils.py +2 -2

No files found.
--- a/vllm/model_executor/layers/quantization/moe_wna16.py
+++ b/vllm/model_executor/layers/quantization/moe_wna16.py
@@ -195,6 +195,8 @@ class MoeWNA16Method(FusedMoEMethodBase):
                 moe: "FusedMoEConfig") -> None:
        super().__init__(moe)
        self.quant_config = quant_config
+        # if os.getenv('AWQ_MOE_SZ') == None:
+        #     os.environ['AWQ_MOE_SZ'] = '1'
        self.use_w4a16_moe_sz = os.environ.get('AWQ_MOE_SZ') == '1'
        self.use_w4a16_cuda = 0
        self.use_moe_lmslim = 0

--- a/vllm/model_executor/model_loader/utils.py
+++ b/vllm/model_executor/model_loader/utils.py
@@ -244,8 +244,8 @@ def _get_model_architecture(
        # awq相关配置
        try:
-            if os.getenv('AWQ_MOE_SZ') == None:
+            # if os.getenv('AWQ_MOE_SZ') == None:
-                os.environ['AWQ_MOE_SZ'] = '1'
+            #     os.environ['AWQ_MOE_SZ'] = '1'
            if os.getenv('AWQ_PAD') == None and (torch.cuda.get_device_properties(torch.cuda.current_device()).multi_processor_count == 120):
                os.environ['AWQ_PAD'] = '1'
        except Exception as e: