Fix: Add lifecycle management to AWQ linear function

fc97bbd8 · qinyiqun · f692d681 · fc97bbd8 · fc97bbd8
Commit fc97bbd8 authored Mar 11, 2026 by qinyiqun
Hide whitespace changes
Inline Side-by-side

Showing with 3 additions and 2 deletions

csrc/layers/fused_linear.hpp csrc/layers/fused_linear.hpp +1 -1

csrc/models/llama/llama_attention.cpp csrc/models/llama/llama_attention.cpp +2 -1

No files found.
--- a/csrc/layers/fused_linear.hpp
+++ b/csrc/layers/fused_linear.hpp
@@ -207,7 +207,7 @@ private:
 #define INFINILM_QKV_LINEAR_W4A16AWQ_INIT(name, q_name, k_name, v_name, ...)                                 \
    name##_ = std::make_shared<layers::QKVParallelLinear>(__VA_ARGS__);                                      \
-    auto awq_ptr = std::static_pointer_cast<infinicore::quantization::AWQ>(this->quantization_);             \
+    auto awq_ptr = std::static_pointer_cast<infinicore::quantization::AWQ>(name##_->get_quantization());     \
    int packing_num = awq_ptr->get_packing_num();                                                            \
    this->register_parameter(std::string(q_name) + ".qweight", name##_->get_q_weight_awq(packing_num));      \
    this->register_parameter(std::string(q_name) + ".qzeros", name##_->get_q_weight_zeros_awq(packing_num)); \

--- a/csrc/models/llama/llama_attention.cpp
+++ b/csrc/models/llama/llama_attention.cpp
@@ -112,12 +112,13 @@ LlamaAttention::LlamaAttention(std::shared_ptr<infinilm::config::ModelConfig> mo
                                  dtype, device, tp_rank, tp_size, rank_info.comm);
        break;
-    case infinicore::quantization::QuantScheme::AWQ_W4A16:
+    case infinicore::quantization::QuantScheme::AWQ_W4A16: {
        INFINILM_QKV_LINEAR_W4A16AWQ_INIT(qkv_proj, "q_proj", "k_proj", "v_proj", hidden_size_, head_dim_, model_config_->get<size_t>("num_attention_heads"), model_config_->get<size_t>("num_key_value_heads"), this->model_config_->get_quantization_method(), use_bias_,
                                          dtype, device, rank_info);
        INFINICORE_NN_MODULE_INIT(o_proj, model_config_->get<size_t>("num_attention_heads") * head_dim_, hidden_size_, this->model_config_->get_quantization_method(), use_output_bias_,
                                  dtype, device, tp_rank, tp_size, rank_info.comm);
        break;
+    }
    default:
        INFINILM_QKV_LINEAR_INIT(qkv_proj, "q_proj", "k_proj", "v_proj", hidden_size_, head_dim_, model_config_->get<size_t>("num_attention_heads"), model_config_->get<size_t>("num_key_value_heads"), this->model_config_->get_quantization_method(), use_bias_,
                                 dtype, device, rank_info);