Fix two bugs with --logging_first_step (#8193)

* make sure that logging_first_step evaluates * fix bug with incorrect loss on logging_first_step * fix style * logging_first_step only logs, not evals

Fix two bugs with --logging_first_step (#8193)
* make sure that logging_first_step evaluates * fix bug with incorrect loss on logging_first_step * fix style * logging_first_step only logs, not evals
8f1c960e · Abi See · GitHub · 689ff74f · 8f1c960e · 8f1c960e
Unverified Commit 8f1c960e authored Oct 30, 2020 by Abi See Committed by GitHub Oct 30, 2020
Show whitespace changes
Inline Side-by-side

Showing with 6 additions and 2 deletions

src/transformers/trainer.py src/transformers/trainer.py +5 -1

src/transformers/training_args.py src/transformers/training_args.py +1 -1

No files found.
--- a/src/transformers/trainer.py
+++ b/src/transformers/trainer.py
@@ -729,6 +729,7 @@ class Trainer:
        tr_loss = torch.tensor(0.0).to(self.args.device)
        self._logging_loss_scalar = 0
+        self._globalstep_last_logged = 0
        self._total_flos = self.state.total_flos
        model.zero_grad()
@@ -849,7 +850,9 @@ class Trainer:
        if self.control.should_log:
            logs: Dict[str, float] = {}
            tr_loss_scalar = tr_loss.item()
-            logs["loss"] = (tr_loss_scalar - self._logging_loss_scalar) / self.args.logging_steps
+            logs["loss"] = (tr_loss_scalar - self._logging_loss_scalar) / (
+                self.state.global_step - self._globalstep_last_logged
+            )
            # backward compatibility for pytorch schedulers
            logs["learning_rate"] = (
                self.lr_scheduler.get_last_lr()[0]
@@ -857,6 +860,7 @@ class Trainer:
                else self.lr_scheduler.get_lr()[0]
            )
            self._logging_loss_scalar = tr_loss_scalar
+            self._globalstep_last_logged = self.state.global_step
            self.log(logs)

--- a/src/transformers/training_args.py
+++ b/src/transformers/training_args.py
@@ -250,7 +250,7 @@ class TrainingArguments:
    warmup_steps: int = field(default=0, metadata={"help": "Linear warmup over warmup_steps."})
    logging_dir: Optional[str] = field(default_factory=default_logdir, metadata={"help": "Tensorboard log dir."})
-    logging_first_step: bool = field(default=False, metadata={"help": "Log and eval the first global_step"})
+    logging_first_step: bool = field(default=False, metadata={"help": "Log the first global_step"})
    logging_steps: int = field(default=500, metadata={"help": "Log every X updates steps."})
    save_steps: int = field(default=500, metadata={"help": "Save checkpoint every X updates steps."})
    save_total_limit: Optional[int] = field(