update fp16 model layout conversion conditions

4d821524 · zhuwenwen · bb5f9b5b · 4d821524 · 4d821524 · 4d821524
Commit 4d821524 authored Aug 17, 2024 by zhuwenwen
5 changed files
--- a/vllm/model_executor/models/baichuan.py
+++ b/vllm/model_executor/models/baichuan.py
@@ -413,7 +413,7 @@ class BaiChuanBaseForCausalLM(nn.Module, SupportsLoRA):
                                        default_weight_loader)
                weight_loader(param, loaded_weight)
                
-        if self.use_llama_nn:
+        if self.use_llama_nn and self.quant_method is None :
            lay_key_words = [
                "self_attn.W_pack.weight",
                "self_attn.o_proj.weight",

--- a/vllm/model_executor/models/chatglm.py
+++ b/vllm/model_executor/models/chatglm.py
@@ -411,7 +411,7 @@ class ChatGLMForCausalLM(nn.Module, SupportsLoRA):
                                    default_weight_loader)
            weight_loader(param, loaded_weight)
        
-        if self.use_llama_nn:
+        if self.use_llama_nn and self.quant_method is None:
            lay_key_words = [
                "self_attention.query_key_value.weight",
                "self_attention.dense.weight",

--- a/vllm/model_executor/models/llama.py
+++ b/vllm/model_executor/models/llama.py
@@ -531,7 +531,7 @@ class LlamaForCausalLM(nn.Module, SupportsLoRA):
                                        default_weight_loader)
                weight_loader(param, loaded_weight)  
            
-        if self.use_llama_nn:
+        if self.use_llama_nn and self.quant_method is None :
            lay_key_words = [
                "self_attn.qkv_proj.weight",
                "self_attn.o_proj.weight",

--- a/vllm/model_executor/models/qwen.py
+++ b/vllm/model_executor/models/qwen.py
@@ -355,7 +355,7 @@ class QWenLMHeadModel(nn.Module):
                weight_loader = getattr(param, "weight_loader",
                                        default_weight_loader)
                weight_loader(param, loaded_weight)
-        if self.use_llama_nn:
+        if self.use_llama_nn and self.quant_method is None :
            lay_key_words = [
                "attn.c_attn.weight",
                "attn.c_proj.weight",

--- a/vllm/model_executor/models/qwen2.py
+++ b/vllm/model_executor/models/qwen2.py
@@ -448,7 +448,7 @@ class Qwen2ForCausalLM(nn.Module, SupportsLoRA):
                                        default_weight_loader)
                weight_loader(param, loaded_weight)
                
-        if self.use_llama_nn:
+        if self.use_llama_nn and self.quant_method is None:
            lay_key_words = [
                "self_attn.qkv_proj.weight",
                "self_attn.o_proj.weight",