update fp16 model layout conversion conditions

a528f350 · zhuwenwen · f82f451f · a528f350 · a528f350 · a528f350
Commit a528f350 authored Aug 17, 2024 by zhuwenwen
5 changed files
--- a/vllm/model_executor/models/baichuan.py
+++ b/vllm/model_executor/models/baichuan.py
@@ -404,7 +404,7 @@ class BaiChuanBaseForCausalLM(nn.Module):
                                        default_weight_loader)
                weight_loader(param, loaded_weight)
-        if self.use_llama_nn:
+        if self.use_llama_nn and self.quant_method is None:
            lay_key_words = [
                "self_attn.W_pack.weight",
                "self_attn.o_proj.weight",

--- a/vllm/model_executor/models/chatglm.py
+++ b/vllm/model_executor/models/chatglm.py
@@ -404,7 +404,7 @@ class ChatGLMForCausalLM(nn.Module):
                                    default_weight_loader)
            weight_loader(param, loaded_weight)
-        if self.use_llama_nn:
+        if self.use_llama_nn and self.quant_method is None:
            lay_key_words = [
                "self_attention.query_key_value.weight",
                "self_attention.dense.weight",

--- a/vllm/model_executor/models/llama.py
+++ b/vllm/model_executor/models/llama.py
@@ -453,7 +453,7 @@ class LlamaForCausalLM(nn.Module):
                                        default_weight_loader)
                weight_loader(param, loaded_weight)  
-        if self.use_llama_nn:
+        if self.use_llama_nn and self.quant_method is None:
            lay_key_words = [
                "self_attn.qkv_proj.weight",
                "self_attn.o_proj.weight",

--- a/vllm/model_executor/models/qwen.py
+++ b/vllm/model_executor/models/qwen.py
@@ -309,7 +309,7 @@ class QWenLMHeadModel(nn.Module):
                weight_loader = getattr(param, "weight_loader",
                                        default_weight_loader)
                weight_loader(param, loaded_weight)
-        if self.use_llama_nn:
+        if self.use_llama_nn and self.quant_method is None:
            lay_key_words = [
                "attn.c_attn.weight",
                "attn.c_proj.weight",

--- a/vllm/model_executor/models/qwen2.py
+++ b/vllm/model_executor/models/qwen2.py
@@ -396,7 +396,7 @@ class Qwen2ForCausalLM(nn.Module):
                                        default_weight_loader)
                weight_loader(param, loaded_weight)
-        if self.use_llama_nn:
+        if self.use_llama_nn and self.quant_method is None:
            lay_key_words = [
                "self_attn.qkv_proj.weight",
                "self_attn.o_proj.weight",