introduce `logger.warning_once` and use it for grad checkpointing code (#21804)

* logger.warning_once * style

introduce `logger.warning_once` and use it for grad checkpointing code (#21804)
* logger.warning_once * style
c7f3abc2 · Stas Bekman · GitHub · f95f60c8 · c7f3abc2 · c7f3abc2
Unverified Commit c7f3abc2 authored Feb 27, 2023 by Stas Bekman Committed by GitHub Feb 27, 2023
18 changed files
--- a/src/transformers/models/qdqbert/modeling_qdqbert.py
+++ b/src/transformers/models/qdqbert/modeling_qdqbert.py
@@ -575,7 +575,7 @@ class QDQBertEncoder(nn.Module):

            if self.gradient_checkpointing and self.training:
                if use_cache:
-                    logger.warning(
+                    logger.warning_once(
                        "`use_cache=True` is incompatible with gradient checkpointing. Setting `use_cache=False`..."
                    )
                    use_cache = False

--- a/src/transformers/models/realm/modeling_realm.py
+++ b/src/transformers/models/realm/modeling_realm.py
@@ -578,7 +578,7 @@ class RealmEncoder(nn.Module):

            if self.gradient_checkpointing and self.training:
                if use_cache:
-                    logger.warning(
+                    logger.warning_once(
                        "`use_cache=True` is incompatible with gradient checkpointing. Setting `use_cache=False`..."
                    )
                    use_cache = False

--- a/src/transformers/models/rembert/modeling_rembert.py
+++ b/src/transformers/models/rembert/modeling_rembert.py
@@ -536,7 +536,7 @@ class RemBertEncoder(nn.Module):

            if self.gradient_checkpointing and self.training:
                if use_cache:
-                    logger.warning(
+                    logger.warning_once(
                        "`use_cache=True` is incompatible with gradient checkpointing. Setting `use_cache=False`..."
                    )
                    use_cache = False

--- a/src/transformers/models/roberta/modeling_roberta.py
+++ b/src/transformers/models/roberta/modeling_roberta.py
@@ -502,7 +502,7 @@ class RobertaEncoder(nn.Module):

            if self.gradient_checkpointing and self.training:
                if use_cache:
-                    logger.warning(
+                    logger.warning_once(
                        "`use_cache=True` is incompatible with gradient checkpointing. Setting `use_cache=False`..."
                    )
                    use_cache = False

--- a/src/transformers/models/roberta_prelayernorm/modeling_roberta_prelayernorm.py
+++ b/src/transformers/models/roberta_prelayernorm/modeling_roberta_prelayernorm.py
@@ -504,7 +504,7 @@ class RobertaPreLayerNormEncoder(nn.Module):

            if self.gradient_checkpointing and self.training:
                if use_cache:
-                    logger.warning(
+                    logger.warning_once(
                        "`use_cache=True` is incompatible with gradient checkpointing. Setting `use_cache=False`..."
                    )
                    use_cache = False

--- a/src/transformers/models/roc_bert/modeling_roc_bert.py
+++ b/src/transformers/models/roc_bert/modeling_roc_bert.py
@@ -636,7 +636,7 @@ class RoCBertEncoder(nn.Module):

            if self.gradient_checkpointing and self.training:
                if use_cache:
-                    logger.warning(
+                    logger.warning_once(
                        "`use_cache=True` is incompatible with gradient checkpointing. Setting `use_cache=False`..."
                    )
                    use_cache = False

--- a/src/transformers/models/roformer/modeling_roformer.py
+++ b/src/transformers/models/roformer/modeling_roformer.py
@@ -573,7 +573,7 @@ class RoFormerEncoder(nn.Module):

            if self.gradient_checkpointing and self.training:
                if use_cache:
-                    logger.warning(
+                    logger.warning_once(
                        "`use_cache=True` is incompatible with gradient checkpointing. Setting `use_cache=False`..."
                    )
                    use_cache = False

--- a/src/transformers/models/speecht5/modeling_speecht5.py
+++ b/src/transformers/models/speecht5/modeling_speecht5.py
@@ -1692,7 +1692,7 @@ class SpeechT5Decoder(SpeechT5PreTrainedModel):

            if self.gradient_checkpointing and self.training:
                if use_cache:
-                    logger.warning(
+                    logger.warning_once(
                        "`use_cache=True` is incompatible with gradient checkpointing. Setting `use_cache=False`..."
                    )
                    use_cache = False

--- a/src/transformers/models/splinter/modeling_splinter.py
+++ b/src/transformers/models/splinter/modeling_splinter.py
@@ -451,7 +451,7 @@ class SplinterEncoder(nn.Module):

            if self.gradient_checkpointing and self.training:
                if use_cache:
-                    logger.warning(
+                    logger.warning_once(
                        "`use_cache=True` is incompatible with gradient checkpointing. Setting `use_cache=False`..."
                    )
                    use_cache = False

--- a/src/transformers/models/switch_transformers/modeling_switch_transformers.py
+++ b/src/transformers/models/switch_transformers/modeling_switch_transformers.py
@@ -1057,7 +1057,7 @@ class SwitchTransformersStack(SwitchTransformersPreTrainedModel):

            if self.gradient_checkpointing and self.training:
                if use_cache:
-                    logger.warning(
+                    logger.warning_once(
                        "`use_cache=True` is incompatible with gradient checkpointing. Setting `use_cache=False`..."
                    )
                    use_cache = False

--- a/src/transformers/models/t5/modeling_t5.py
+++ b/src/transformers/models/t5/modeling_t5.py
@@ -1037,7 +1037,7 @@ class T5Stack(T5PreTrainedModel):

            if self.gradient_checkpointing and self.training:
                if use_cache:
-                    logger.warning(
+                    logger.warning_once(
                        "`use_cache=True` is incompatible with gradient checkpointing. Setting `use_cache=False`..."
                    )
                    use_cache = False

--- a/src/transformers/models/time_series_transformer/modeling_time_series_transformer.py
+++ b/src/transformers/models/time_series_transformer/modeling_time_series_transformer.py
@@ -1471,7 +1471,7 @@ class TimeSeriesTransformerDecoder(TimeSeriesTransformerPreTrainedModel):

            if self.gradient_checkpointing and self.training:
                if use_cache:
-                    logger.warning(
+                    logger.warning_once(
                        "`use_cache=True` is incompatible with gradient checkpointing. Setting `use_cache=False`..."
                    )
                    use_cache = False

--- a/src/transformers/models/trajectory_transformer/modeling_trajectory_transformer.py
+++ b/src/transformers/models/trajectory_transformer/modeling_trajectory_transformer.py
@@ -543,7 +543,7 @@ class TrajectoryTransformerModel(TrajectoryTransformerPreTrainedModel):

            if self.gradient_checkpointing and self.training:
                if use_cache:
-                    logger.warning(
+                    logger.warning_once(
                        "`use_cache=True` is incompatible with gradient checkpointing. Setting `use_cache=False`..."
                    )
                    use_cache = False

--- a/src/transformers/models/xlm_prophetnet/modeling_xlm_prophetnet.py
+++ b/src/transformers/models/xlm_prophetnet/modeling_xlm_prophetnet.py
@@ -1595,7 +1595,7 @@ class XLMProphetNetDecoder(XLMProphetNetPreTrainedModel):

        if self.gradient_checkpointing and self.training:
            if use_cache:
-                logger.warning(
+                logger.warning_once(
                    "`use_cache=True` is incompatible with gradient checkpointing. Setting `use_cache=False`..."
                )
                use_cache = False

--- a/src/transformers/models/xlm_roberta/modeling_xlm_roberta.py
+++ b/src/transformers/models/xlm_roberta/modeling_xlm_roberta.py
@@ -503,7 +503,7 @@ class XLMRobertaEncoder(nn.Module):

            if self.gradient_checkpointing and self.training:
                if use_cache:
-                    logger.warning(
+                    logger.warning_once(
                        "`use_cache=True` is incompatible with gradient checkpointing. Setting `use_cache=False`..."
                    )
                    use_cache = False

--- a/src/transformers/models/xlm_roberta_xl/modeling_xlm_roberta_xl.py
+++ b/src/transformers/models/xlm_roberta_xl/modeling_xlm_roberta_xl.py
@@ -492,7 +492,7 @@ class XLMRobertaXLEncoder(nn.Module):

            if self.gradient_checkpointing and self.training:
                if use_cache:
-                    logger.warning(
+                    logger.warning_once(
                        "`use_cache=True` is incompatible with gradient checkpointing. Setting `use_cache=False`..."
                    )
                    use_cache = False

--- a/src/transformers/models/xmod/modeling_xmod.py
+++ b/src/transformers/models/xmod/modeling_xmod.py
@@ -566,7 +566,7 @@ class XmodEncoder(nn.Module):

            if self.gradient_checkpointing and self.training:
                if use_cache:
-                    logger.warning(
+                    logger.warning_once(
                        "`use_cache=True` is incompatible with gradient checkpointing. Setting `use_cache=False`..."
                    )
                    use_cache = False

--- a/src/transformers/utils/logging.py
+++ b/src/transformers/utils/logging.py
@@ -14,6 +14,8 @@
 # limitations under the License.
 """ Logging utilities."""

+
+import functools
 import logging
 import os
 import sys
@@ -281,6 +283,21 @@ def warning_advice(self, *args, **kwargs):
 logging.Logger.warning_advice = warning_advice


+@functools.lru_cache(None)
+def warning_once(self, *args, **kwargs):
+    """
+    This method is identical to `logger.warning()`, but will emit the warning with the same message only once
+
+    Note: The cache is for the function arguments, so 2 different callers using the same arguments will hit the cache.
+    The assumption here is that all warning messages are unique across the code. If they aren't then need to switch to
+    another type of cache that includes the caller frame information in the hashing function.
+    """
+    self.warning(*args, **kwargs)
+
+
+logging.Logger.warning_once = warning_once
+
+
 class EmptyTqdm:
    """Dummy tqdm which doesn't do anything."""