init is_quantization of load_row_parallel_weight (BasevLLMParameter)

3efb2e1c · zhuwenwen · 39380c86 · 3efb2e1c
Commit 3efb2e1c authored Oct 22, 2025 by zhuwenwen
Show whitespace changes
Inline Side-by-side

Showing with 2 additions and 2 deletions

vllm/model_executor/parameter.py vllm/model_executor/parameter.py +2 -2

No files found.
--- a/vllm/model_executor/parameter.py
+++ b/vllm/model_executor/parameter.py
@@ -94,7 +94,7 @@ class BasevLLMParameter(Parameter):
    def load_column_parallel_weight(self, loaded_weight: torch.Tensor):
        self._assert_and_load(loaded_weight)

-    def load_row_parallel_weight(self, loaded_weight: torch.Tensor):
+    def load_row_parallel_weight(self, loaded_weight: torch.Tensor, is_quantization: Optional[bool] = None):
        self._assert_and_load(loaded_weight)

    def load_merged_column_weight(self, loaded_weight: torch.Tensor, **kwargs):
@@ -238,7 +238,7 @@ class RowvLLMParameter(BasevLLMParameter):
    def input_dim(self):
        return self._input_dim

-    def load_row_parallel_weight(self, loaded_weight: torch.Tensor, is_quantization:Optional[bool]):
+    def load_row_parallel_weight(self, loaded_weight: torch.Tensor, is_quantization: Optional[bool] = None):
        if not envs.VLLM_USE_NN or is_quantization:
            shard_size = self.data.shape[self.input_dim]
        else: