Merge branch 'v0.11.0-dev-yql' into 'v0.11.0-dev'

修复CompressedTensorsLinearMethod中的w4a16的冲突问题 See merge request dcutoolkit/deeplearing/vllm!302

Merge branch 'v0.11.0-dev-yql' into 'v0.11.0-dev'
修复CompressedTensorsLinearMethod中的w4a16的冲突问题 See merge request dcutoolkit/deeplearing/vllm!302
b256f7ac · zhuwenwen · dfc7e914 · 37771741 · b256f7ac · b256f7ac
Commit b256f7ac authored Dec 17, 2025 by zhuwenwen
2 changed files
--- a/vllm/model_executor/layers/quantization/compressed_tensors/compressed_tensors.py
+++ b/vllm/model_executor/layers/quantization/compressed_tensors/compressed_tensors.py
@@ -723,6 +723,16 @@ class CompressedTensorsLinearMethod(LinearMethodBase):
        self.w8a8_strategy=int(os.getenv('W8A8_SUPPORT_METHODS', '1'))
    def process_weights_after_loading(self, layer: torch.nn.Module) -> None:
+        weights_scheme = (
+            self.quantization_config
+            .target_scheme_map.get('Linear', {})
+            .get('weights')
+        )
+        if weights_scheme is not None:
+            num_bits = weights_scheme.num_bits
+            if num_bits == 4:
+                return layer.scheme.process_weights_after_loading(layer)   
        n=layer.weight.shape[0]
        k=layer.weight.shape[1]

--- a/vllm/model_executor/layers/quantization/compressed_tensors/schemes/compressed_tensors_wNa16.py
+++ b/vllm/model_executor/layers/quantization/compressed_tensors/schemes/compressed_tensors_wNa16.py
@@ -197,5 +197,5 @@ class CompressedTensorsWNA16(CompressedTensorsScheme):
        self.kernel.process_weights_after_loading(layer)
    def apply_weights(self, layer: torch.nn.Module, x: torch.Tensor,
-                      bias: Optional[torch.Tensor]) -> torch.Tensor:
+                      bias: Optional[torch.Tensor], **kw) -> torch.Tensor:
        return self.kernel.apply_weights(layer, x, bias)