[`Llama + AWQ`] fix `prepare_inputs_for_generation` 🫠 (#29381)

* use the generation config 🫠 * fixup

[`Llama + AWQ`] fix `prepare_inputs_for_generation` 🫠 (#29381)
* use the generation config 🫠 * fixup
e7b98370 · Arthur · GitHub · 50db7ca4 · e7b98370 · e7b98370
Unverified Commit e7b98370 authored Mar 01, 2024 by Arthur Committed by GitHub Mar 01, 2024
Showing with 2 additions and 2 deletions

src/transformers/models/gemma/modeling_gemma.py src/transformers/models/gemma/modeling_gemma.py +1 -1

src/transformers/models/llama/modeling_llama.py src/transformers/models/llama/modeling_llama.py +1 -1

No files found.
--- a/src/transformers/models/gemma/modeling_gemma.py
+++ b/src/transformers/models/gemma/modeling_gemma.py
@@ -1161,7 +1161,7 @@ class GemmaForCausalLM(GemmaPreTrainedModel):
            if past_key_values:
                position_ids = position_ids[:, -input_ids.shape[1] :]

-        if getattr(self.model.layers[0].self_attn, "past_key_value", None) is not None:
+        if self.generation_config.cache_implementation == "static":
            # generation with static cache
            cache_position = kwargs.get("cache_position", None)
            if cache_position is None:

--- a/src/transformers/models/llama/modeling_llama.py
+++ b/src/transformers/models/llama/modeling_llama.py
@@ -1277,7 +1277,7 @@ class LlamaForCausalLM(LlamaPreTrainedModel):
            if past_key_values:
                position_ids = position_ids[:, -input_ids.shape[1] :]

-        if getattr(self.model.layers[0].self_attn, "past_key_value", None) is not None:
+        if self.generation_config.cache_implementation == "static":
            # generation with static cache
            cache_position = kwargs.get("cache_position", None)
            if cache_position is None: