[Misc] Skip loading extra bias for Qwen2-VL GPTQ-Int8 (#8442)

06311e29 · Jee Jee Li · GitHub · cab69a15 · 06311e29
Unverified Commit 06311e29 authored Sep 13, 2024 by Jee Jee Li Committed by GitHub Sep 13, 2024
Hide whitespace changes
Inline Side-by-side

Showing with 6 additions and 0 deletions

vllm/model_executor/models/qwen2_vl.py vllm/model_executor/models/qwen2_vl.py +6 -0

No files found.
--- a/vllm/model_executor/models/qwen2_vl.py
+++ b/vllm/model_executor/models/qwen2_vl.py
@@ -1055,6 +1055,9 @@ class Qwen2VLForConditionalGeneration(nn.Module, SupportsMultiModal):
                if weight_name not in name:
                    continue
                name = name.replace(weight_name, param_name)
+                # Skip loading extra bias for GPTQ models.
+                if name.endswith(".bias") and name not in params_dict:
+                    continue
                param = params_dict[name]
                weight_loader = param.weight_loader
                weight_loader(param, loaded_weight, shard_id)
@@ -1078,6 +1081,9 @@ class Qwen2VLForConditionalGeneration(nn.Module, SupportsMultiModal):
                    loaded_weight = loaded_weight.transpose(0, 1)
                    loaded_weight = loaded_weight.reshape(-1)
                try:
+                    # Skip loading extra bias for GPTQ models.
+                    if name.endswith(".bias") and name not in params_dict:
+                        continue
                    param = params_dict[name]
                except KeyError:
                    print(params_dict.keys())