introduce `logger.warning_once` and use it for grad checkpointing code (#21804)

* logger.warning_once * style

introduce `logger.warning_once` and use it for grad checkpointing code (#21804)
* logger.warning_once * style
c7f3abc2 · Stas Bekman · GitHub · f95f60c8 · c7f3abc2 · c7f3abc2
Unverified Commit c7f3abc2 authored Feb 27, 2023 by Stas Bekman Committed by GitHub Feb 27, 2023
20 changed files
--- a/src/transformers/models/git/modeling_git.py
+++ b/src/transformers/models/git/modeling_git.py
@@ -444,7 +444,7 @@ class GitEncoder(nn.Module):

            if self.gradient_checkpointing and self.training:
                if use_cache:
-                    logger.warning(
+                    logger.warning_once(
                        "`use_cache=True` is incompatible with gradient checkpointing. Setting `use_cache=False`..."
                    )
                    use_cache = False

--- a/src/transformers/models/gpt2/modeling_gpt2.py
+++ b/src/transformers/models/gpt2/modeling_gpt2.py
@@ -853,7 +853,7 @@ class GPT2Model(GPT2PreTrainedModel):

        if self.gradient_checkpointing and self.training:
            if use_cache:
-                logger.warning(
+                logger.warning_once(
                    "`use_cache=True` is incompatible with gradient checkpointing. Setting `use_cache=False`..."
                )
                use_cache = False

--- a/src/transformers/models/gpt_neo/modeling_gpt_neo.py
+++ b/src/transformers/models/gpt_neo/modeling_gpt_neo.py
@@ -589,7 +589,7 @@ class GPTNeoModel(GPTNeoPreTrainedModel):

        if self.gradient_checkpointing and self.training:
            if use_cache:
-                logger.warning(
+                logger.warning_once(
                    "`use_cache=True` is incompatible with gradient checkpointing. Setting `use_cache=False`..."
                )
                use_cache = False

--- a/src/transformers/models/gptj/modeling_gptj.py
+++ b/src/transformers/models/gptj/modeling_gptj.py
@@ -653,7 +653,7 @@ class GPTJModel(GPTJPreTrainedModel):

            if self.gradient_checkpointing and self.training:
                if use_cache:
-                    logger.warning(
+                    logger.warning_once(
                        "`use_cache=True` is incompatible with gradient checkpointing. Setting `use_cache=False`..."
                    )
                    use_cache = False

--- a/src/transformers/models/imagegpt/modeling_imagegpt.py
+++ b/src/transformers/models/imagegpt/modeling_imagegpt.py
@@ -812,7 +812,7 @@ class ImageGPTModel(ImageGPTPreTrainedModel):

            if self.gradient_checkpointing and self.training:
                if use_cache:
-                    logger.warning(
+                    logger.warning_once(
                        "`use_cache=True` is incompatible with gradient checkpointing. Setting `use_cache=False`..."
                    )
                    use_cache = False

--- a/src/transformers/models/layoutlm/modeling_layoutlm.py
+++ b/src/transformers/models/layoutlm/modeling_layoutlm.py
@@ -479,7 +479,7 @@ class LayoutLMEncoder(nn.Module):

            if self.gradient_checkpointing and self.training:
                if use_cache:
-                    logger.warning(
+                    logger.warning_once(
                        "`use_cache=True` is incompatible with gradient checkpointing. Setting `use_cache=False`..."
                    )
                    use_cache = False

--- a/src/transformers/models/led/modeling_led.py
+++ b/src/transformers/models/led/modeling_led.py
@@ -2136,7 +2136,7 @@ class LEDDecoder(LEDPreTrainedModel):

            if self.gradient_checkpointing and self.training:
                if use_cache:
-                    logger.warning(
+                    logger.warning_once(
                        "`use_cache=True` is incompatible with gradient checkpointing. Setting `use_cache=False`..."
                    )
                    use_cache = False

--- a/src/transformers/models/m2m_100/modeling_m2m_100.py
+++ b/src/transformers/models/m2m_100/modeling_m2m_100.py
@@ -1055,7 +1055,7 @@ class M2M100Decoder(M2M100PreTrainedModel):

                if self.gradient_checkpointing and self.training:
                    if use_cache:
-                        logger.warning(
+                        logger.warning_once(
                            "`use_cache=True` is incompatible with gradient checkpointing. Setting"
                            " `use_cache=False`..."
                        )

--- a/src/transformers/models/marian/modeling_marian.py
+++ b/src/transformers/models/marian/modeling_marian.py
@@ -1020,7 +1020,7 @@ class MarianDecoder(MarianPreTrainedModel):

            if self.gradient_checkpointing and self.training:
                if use_cache:
-                    logger.warning(
+                    logger.warning_once(
                        "`use_cache=True` is incompatible with gradient checkpointing. Setting `use_cache=False`..."
                    )
                    use_cache = False

--- a/src/transformers/models/markuplm/modeling_markuplm.py
+++ b/src/transformers/models/markuplm/modeling_markuplm.py
@@ -641,7 +641,7 @@ class MarkupLMEncoder(nn.Module):

            if self.gradient_checkpointing and self.training:
                if use_cache:
-                    logger.warning(
+                    logger.warning_once(
                        "`use_cache=True` is incompatible with gradient checkpointing. Setting `use_cache=False`..."
                    )
                    use_cache = False

--- a/src/transformers/models/mbart/modeling_mbart.py
+++ b/src/transformers/models/mbart/modeling_mbart.py
@@ -1069,7 +1069,7 @@ class MBartDecoder(MBartPreTrainedModel):

            if self.gradient_checkpointing and self.training:
                if use_cache:
-                    logger.warning(
+                    logger.warning_once(
                        "`use_cache=True` is incompatible with gradient checkpointing`. Setting `use_cache=False`..."
                    )
                    use_cache = False

--- a/src/transformers/models/megatron_bert/modeling_megatron_bert.py
+++ b/src/transformers/models/megatron_bert/modeling_megatron_bert.py
@@ -544,7 +544,7 @@ class MegatronBertEncoder(nn.Module):

            if self.gradient_checkpointing and self.training:
                if use_cache:
-                    logger.warning(
+                    logger.warning_once(
                        "`use_cache=True` is incompatible with gradient checkpointing. Setting `use_cache=False`..."
                    )
                    use_cache = False

--- a/src/transformers/models/mt5/modeling_mt5.py
+++ b/src/transformers/models/mt5/modeling_mt5.py
@@ -1008,7 +1008,7 @@ class MT5Stack(MT5PreTrainedModel):

            if self.gradient_checkpointing and self.training:
                if use_cache:
-                    logger.warning(
+                    logger.warning_once(
                        "`use_cache=True` is incompatible with gradient checkpointing. Setting `use_cache=False`..."
                    )
                    use_cache = False

--- a/src/transformers/models/mvp/modeling_mvp.py
+++ b/src/transformers/models/mvp/modeling_mvp.py
@@ -1212,7 +1212,7 @@ class MvpDecoder(MvpPreTrainedModel):

            if self.gradient_checkpointing and self.training:
                if use_cache:
-                    logger.warning(
+                    logger.warning_once(
                        "`use_cache=True` is incompatible with gradient checkpointing. Setting `use_cache=False`..."
                    )
                    use_cache = False

--- a/src/transformers/models/nezha/modeling_nezha.py
+++ b/src/transformers/models/nezha/modeling_nezha.py
@@ -571,7 +571,7 @@ class NezhaEncoder(nn.Module):

            if self.gradient_checkpointing and self.training:
                if use_cache:
-                    logger.warning(
+                    logger.warning_once(
                        "`use_cache=True` is incompatible with gradient checkpointing. Setting `use_cache=False`..."
                    )
                    use_cache = False

--- a/src/transformers/models/opt/modeling_opt.py
+++ b/src/transformers/models/opt/modeling_opt.py
@@ -671,7 +671,7 @@ class OPTDecoder(OPTPreTrainedModel):

            if self.gradient_checkpointing and self.training:
                if use_cache:
-                    logger.warning(
+                    logger.warning_once(
                        "`use_cache=True` is incompatible with gradient checkpointing. Setting `use_cache=False`..."
                    )
                    use_cache = False

--- a/src/transformers/models/pegasus/modeling_pegasus.py
+++ b/src/transformers/models/pegasus/modeling_pegasus.py
@@ -1070,7 +1070,7 @@ class PegasusDecoder(PegasusPreTrainedModel):

            if self.gradient_checkpointing and self.training:
                if use_cache:
-                    logger.warning(
+                    logger.warning_once(
                        "`use_cache=True` is incompatible with gradient checkpointing. Setting `use_cache=False`..."
                    )
                    use_cache = False

--- a/src/transformers/models/pegasus_x/modeling_pegasus_x.py
+++ b/src/transformers/models/pegasus_x/modeling_pegasus_x.py
@@ -1311,7 +1311,7 @@ class PegasusXDecoder(PegasusXPreTrainedModel):

            if self.gradient_checkpointing and self.training:
                if use_cache:
-                    logger.warning(
+                    logger.warning_once(
                        "`use_cache=True` is incompatible with gradient checkpointing. Setting `use_cache=False`..."
                    )
                    use_cache = False

--- a/src/transformers/models/plbart/modeling_plbart.py
+++ b/src/transformers/models/plbart/modeling_plbart.py
@@ -1048,7 +1048,7 @@ class PLBartDecoder(PLBartPreTrainedModel):

            if self.gradient_checkpointing and self.training:
                if use_cache:
-                    logger.warning(
+                    logger.warning_once(
                        "`use_cache=True` is incompatible with gradient checkpointing. Setting `use_cache=False`..."
                    )
                    use_cache = False

--- a/src/transformers/models/prophetnet/modeling_prophetnet.py
+++ b/src/transformers/models/prophetnet/modeling_prophetnet.py
@@ -1572,7 +1572,7 @@ class ProphetNetDecoder(ProphetNetPreTrainedModel):

        if self.gradient_checkpointing and self.training:
            if use_cache:
-                logger.warning(
+                logger.warning_once(
                    "`use_cache=True` is incompatible with gradient checkpointing. Setting `use_cache=False`..."
                )
                use_cache = False