[21737][T5]: Fix gradient checkpoint bug (#22036)

* [21737][T5]: Fix gradient checkpoint bug * [21737][T5]: Fix gradient checkpoint bug * [21737][T5]: Fix gradient checkpoint bug * Update src/transformers/models/mt5/modeling_mt5.py * Update src/transformers/models/t5/modeling_t5.py --------- Co-authored-by: njindal <njindal@adobe.com> Co-authored-by: Joao Gante <joaofranciscocardosogante@gmail.com>

[21737][T5]: Fix gradient checkpoint bug (#22036)
* [21737][T5]: Fix gradient checkpoint bug * [21737][T5]: Fix gradient checkpoint bug * [21737][T5]: Fix gradient checkpoint bug * Update src/transformers/models/mt5/modeling_mt5.py * Update src/transformers/models/t5/modeling_t5.py --------- Co-authored-by: njindal <njindal@adobe.com> Co-authored-by: Joao Gante <joaofranciscocardosogante@gmail.com>
1a77a1a8 · Nipun Jindal · GitHub · 2055d737 · 1a77a1a8 · 1a77a1a8
Unverified Commit 1a77a1a8 authored Mar 09, 2023 by Nipun Jindal Committed by GitHub Mar 09, 2023
Showing with 14 additions and 10 deletions

src/transformers/models/mt5/modeling_mt5.py src/transformers/models/mt5/modeling_mt5.py +7 -5

src/transformers/models/t5/modeling_t5.py src/transformers/models/t5/modeling_t5.py +7 -5

No files found.
--- a/src/transformers/models/mt5/modeling_mt5.py
+++ b/src/transformers/models/mt5/modeling_mt5.py
@@ -978,6 +978,13 @@ class MT5Stack(MT5PreTrainedModel):
        else:
            encoder_extended_attention_mask = None
+        if self.gradient_checkpointing and self.training:
+            if use_cache:
+                logger.warning_once(
+                    "`use_cache=True` is incompatible with gradient checkpointing. Setting `use_cache=False`..."
+                )
+                use_cache = False
        # Prepare head mask if needed
        head_mask = self.get_head_mask(head_mask, self.config.num_layers)
        cross_attn_head_mask = self.get_head_mask(cross_attn_head_mask, self.config.num_layers)
@@ -1015,11 +1022,6 @@ class MT5Stack(MT5PreTrainedModel):
                all_hidden_states = all_hidden_states + (hidden_states,)
            if self.gradient_checkpointing and self.training:
-                if use_cache:
-                    logger.warning_once(
-                        "`use_cache=True` is incompatible with gradient checkpointing. Setting `use_cache=False`..."
-                    )
-                    use_cache = False
                def create_custom_forward(module):
                    def custom_forward(*inputs):

--- a/src/transformers/models/t5/modeling_t5.py
+++ b/src/transformers/models/t5/modeling_t5.py
@@ -1007,6 +1007,13 @@ class T5Stack(T5PreTrainedModel):
        else:
            encoder_extended_attention_mask = None
+        if self.gradient_checkpointing and self.training:
+            if use_cache:
+                logger.warning_once(
+                    "`use_cache=True` is incompatible with gradient checkpointing. Setting `use_cache=False`..."
+                )
+                use_cache = False
        # Prepare head mask if needed
        head_mask = self.get_head_mask(head_mask, self.config.num_layers)
        cross_attn_head_mask = self.get_head_mask(cross_attn_head_mask, self.config.num_layers)
@@ -1044,11 +1051,6 @@ class T5Stack(T5PreTrainedModel):
                all_hidden_states = all_hidden_states + (hidden_states,)
            if self.gradient_checkpointing and self.training:
-                if use_cache:
-                    logger.warning_once(
-                        "`use_cache=True` is incompatible with gradient checkpointing. Setting `use_cache=False`..."
-                    )
-                    use_cache = False
                def create_custom_forward(module):
                    def custom_forward(*inputs):