Fix import of torch.utils.checkpoint (#27155)

* Fix import * Apply suggestions from code review Co-authored-by: Younes Belkada <49240599+younesbelkada@users.noreply.github.com> --------- Co-authored-by: Younes Belkada <49240599+younesbelkada@users.noreply.github.com>

Fix import of torch.utils.checkpoint (#27155)
* Fix import * Apply suggestions from code review Co-authored-by: Younes Belkada <49240599+younesbelkada@users.noreply.github.com> --------- Co-authored-by: Younes Belkada <49240599+younesbelkada@users.noreply.github.com>
d39352d1 · NielsRogge · GitHub · e971486d · d39352d1 · d39352d1
Unverified Commit d39352d1 authored Oct 30, 2023 by NielsRogge Committed by GitHub Oct 30, 2023
Showing with 4 additions and 7 deletions

src/transformers/modeling_utils.py src/transformers/modeling_utils.py +3 -6

src/transformers/models/seamless_m4t/modeling_seamless_m4t.py ...transformers/models/seamless_m4t/modeling_seamless_m4t.py +1 -1

No files found.
--- a/src/transformers/modeling_utils.py
+++ b/src/transformers/modeling_utils.py
@@ -33,6 +33,7 @@ import torch
 from packaging import version
 from torch import Tensor, nn
 from torch.nn import CrossEntropyLoss, Identity
+from torch.utils.checkpoint import checkpoint
 from .activations import get_activation
 from .configuration_utils import PretrainedConfig
@@ -1869,9 +1870,7 @@ class PreTrainedModel(nn.Module, ModuleUtilsMixin, GenerationMixin, PushToHubMix
        if gradient_checkpointing_kwargs is None:
            gradient_checkpointing_kwargs = {}
-        gradient_checkpointing_func = functools.partial(
+        gradient_checkpointing_func = functools.partial(checkpoint, **gradient_checkpointing_kwargs)
-            torch.utils.checkpoint.checkpoint, **gradient_checkpointing_kwargs
-        )
        self._set_gradient_checkpointing(enable=True, gradient_checkpointing_func=gradient_checkpointing_func)
@@ -1882,9 +1881,7 @@ class PreTrainedModel(nn.Module, ModuleUtilsMixin, GenerationMixin, PushToHubMix
            # the gradients to make sure the gradient flows.
            self.enable_input_require_grads()
-    def _set_gradient_checkpointing(
+    def _set_gradient_checkpointing(self, enable: bool = True, gradient_checkpointing_func: Callable = checkpoint):
-        self, enable: bool = True, gradient_checkpointing_func: Callable = torch.utils.checkpoint.checkpoint
-    ):
        is_gradient_checkpointing_set = False
        # Apply it on the top-level module in case the top-level modules supports it

--- a/src/transformers/models/seamless_m4t/modeling_seamless_m4t.py
+++ b/src/transformers/models/seamless_m4t/modeling_seamless_m4t.py
@@ -1813,7 +1813,7 @@ class SeamlessM4TEncoder(SeamlessM4TPreTrainedModel):
                layer_outputs = (None, None)
            else:
                if self.gradient_checkpointing and self.training:
-                    layer_outputs = torch.utils.checkpoint.checkpoint(
+                    layer_outputs = self._gradient_checkpointing_func(
                        encoder_layer.forward,
                        hidden_states,
                        attention_mask,