Enforce same behavior as PyTorch 2.0 for older versions (#22136)

1c801d65 · Sylvain Gugger · GitHub · e16cbe88 · 1c801d65
Unverified Commit 1c801d65 authored Mar 13, 2023 by Sylvain Gugger Committed by GitHub Mar 13, 2023
Hide whitespace changes
Inline Side-by-side

Showing with 2 additions and 2 deletions

src/transformers/trainer.py src/transformers/trainer.py +2 -2

No files found.
--- a/src/transformers/trainer.py
+++ b/src/transformers/trainer.py
@@ -1811,7 +1811,7 @@ class Trainer:
        # _total_loss_scalar is updated everytime .item() has to be called on tr_loss and stores the sum of all losses
        self._total_loss_scalar = 0.0
        self._globalstep_last_logged = self.state.global_step
-        model.zero_grad()
+        model.zero_grad(set_to_none=True)
        self.control = self.callback_handler.on_train_begin(args, self.state, self.control)
@@ -1967,7 +1967,7 @@ class Trainer:
                    if optimizer_was_run and not self.deepspeed:
                        self.lr_scheduler.step()
-                    model.zero_grad()
+                    model.zero_grad(set_to_none=True)
                    self.state.global_step += 1
                    self.state.epoch = epoch + (step + 1 + steps_skipped) / steps_in_epoch
                    self.control = self.callback_handler.on_step_end(args, self.state, self.control)