[Bugfix][Quantization] Fix PerTensorScale loading with tuple shard_id in...

[Bugfix][Quantization] Fix PerTensorScale loading with tuple shard_id in MergedColumnParallelLinear (#38517) Signed-off-by: loukang <loukang@xiaohongshu.com>

[Bugfix][Quantization] Fix PerTensorScale loading with tuple shard_id in...
[Bugfix][Quantization] Fix PerTensorScale loading with tuple shard_id in MergedColumnParallelLinear (#38517) Signed-off-by: loukang <loukang@xiaohongshu.com>
98e1a43a · kkyyxhll · GitHub · 729eb59f · 98e1a43a
Unverified Commit 98e1a43a authored Apr 07, 2026 by kkyyxhll Committed by GitHub Apr 07, 2026
Hide whitespace changes
Inline Side-by-side

Showing with 9 additions and 1 deletion

vllm/model_executor/layers/linear.py vllm/model_executor/layers/linear.py +9 -1

No files found.
--- a/vllm/model_executor/layers/linear.py
+++ b/vllm/model_executor/layers/linear.py
@@ -910,7 +910,15 @@ class MergedColumnParallelLinear(ColumnParallelLinear):
        self.validate_shard_id(loaded_shard_id)
        if loaded_shard_id is None or isinstance(loaded_shard_id, tuple):
            if isinstance(param, PerTensorScaleParameter):
-                param.load_merged_column_weight(loaded_weight=loaded_weight, shard_id=0)
+                if isinstance(loaded_shard_id, tuple):
+                    for idx in loaded_shard_id:
+                        param.load_merged_column_weight(
+                            loaded_weight=loaded_weight, shard_id=idx
+                        )
+                else:
+                    param.load_merged_column_weight(
+                        loaded_weight=loaded_weight, shard_id=0
+                    )
                return
            elif type(param) in (RowvLLMParameter, BasevLLMParameter):
                param.load_merged_column_weight(loaded_weight=loaded_weight)